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内 容 提 要 





本 书 是 一 本 面向 中 高 级 程序 员 的 算法 教程 , 借助 Python 语言 , 用 经 典 的 算法 、 编 码 
技术 和 原理 来 求解 计算 机 科学 的 一 些 经 典 问题 。 全 书 共 9 章 ， 不 仅 介绍 了 递归 、 结 果 组 
存 和 位 操作 等 基本 编程 组 件 ， 还 讲述 了 常见 的 搜索 算法 、 常 见 的 图 算法 、 神 经 网 络 、 遗 
传 算法 、K 均 值 聚 类 算法 、 对 抗 搜索 算法 等 ,运用 了 类 型 提示 等 Python 高 级 特性 ， 并 通 
过 各 级 方案 、 示 例 和 习题 展开 具体 实践 。 

本 书 将 计算 机 科学 与 应 用 程序 、 数 据 、 性 能 等 现实 问题 深度 关联 ,定位 独特 ,示例 经 
SH, 适合 有 一 定编 程 经 验 的 中 高 级 Python 程序 员 提 升 用 Python 解决 实际 问题 的 技术 、 编 
程 和 应 用 能 力 。 






























































说 以 本 书 献 给 我 的 祖母 Erminia Antos， 她 执教 一 生 ， 学 习 一 世 。 


引言 











感谢 购买 本 书 。Python 是 世界 上 最 流行 的 编程 语言 之 一 ， 成 为 Python 程序 员 的 人 具备 各 种 
不 同 的 知识 背景 。 有 些 人 接受 过 正规 的 计算 机 科学 教育 ， 有 些 人 学 习 Python 只 是 出 于 兴趣 爱好 ， 
还 有 一 些 人 在 专业 场景 中 使 用 Python 但 他 们 的 主要 工作 不 是 软件 开发 。 本 书 算是 一 本 中 级 教程 ， 
经 验 丰富 的 程序 员 在 学 习 Python 语言 的 一 些 高 级 特性 时 ， 本 书 中 的 问题 将 帮助 他 们 在 计算 机 科 
学 方面 温 故 而 知 新 。 通 过 用 自己 选择 的 Python 语言 学 习 经 典 的 计算 机 问题 ， 自 学 成 才 的 程序 员 
将 加 速 他 们 的 计算 机 科学 学 习 进 程 。 本 书 涵盖 了 多 种 多 样 的 问题 解决 技术 , 因此 确实 能 让 所 有 人 
都 有 所 收获 。 

本 书 不 是 Python 的 入 门 书籍 。Manning 和 其 他 出 版 社 都 出 版 了 很 多 优秀 的 人 门 a", AB 
定 读者 已 是 一 名 中 高 级 Python 程序 员 。 虽 然 本 书 需 要 用 到 Python 3.7， 但 并 不 要 求 掌握 最 新 版 
Python 的 所 有 特点 。 其 实在 构建 本 书 内 容 时 ,我 就 假定 本 书 能 作为 学 习 材 料 来 使 用 ,以 便 帮 助 读 
者 掌握 这 些 特点 。 也 就 是 说 ， 本 书 不 适合 对 Python 完全 陌生 的 读者 。 


选择 Python 的 理由 

Python 广泛 应 用 于 各 种 行业 中 ， 如 数据 科学 、 电 影 制作 、 计 算 机 科学 教学 、IT 管理 等 。 还 
真 没 有 哪个 计算 领域 是 Python 没有 涉及 的 (或 许 内 核 开发 除外 )。Python 因 其 灵活 性 、 优 美 而 简 
洁 的 语法 、 纯 粹 的 面向 对 象 特性 和 活跃 的 社区 而 备 受 青睐 。 强 大 的 社区 非常 重要 ， 因 为 这 表示 
Python 欢迎 新 手 的 加 入 ， 也 说 明 有 庞大 的 现成 库 生态 系统 可 供 开 发 人 员 利 用 。 

正 是 出 于 以 上 原因 ，Python 有 时 被 认为 是 一 种 适合 初学 者 的 语言 ， 或 许 的 确 如 此 吧 。 例 
W, 大 多 数 人 都 同意 Python E C++ 更 容易 学 习 , 而 且 几 乎 可 以 肯定 ， Python 的 社区 对 新 人 更 
加 友善 。 于 是 , 许多 人 因为 Python 平易 近 人 而 学 习 它 , 他 们 相当 迅速 地 着 手 编写 所 需 的 程序 。 




























































































D 如果 是 刚 开 始 接触 Python， 在 开始 阅读 本 书 之 前 不 妨 先 看 看 Naomi Ceder 的 《Python 快速 入 门 〈 第 
版 )》。 
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2 引言 





但 他 们 可 能 从 未 接受 过 计算 机 科学 方面 的 教育 ， 而 这 方面 的 教育 可 以 教 给 他 们 当前 所 有 强大 
的 问题 解决 技术 。 如 果 你 是 一 位 了 解 Python 但 不 熟悉 计算 机 科学 的 程序 员 , 那么 本 书 正 是 为 
你 准备 的 。 

还 有 一 部 分 人 长 期 从 事 软 件 开发 工作 ， 他 们 将 Python 作为 第 2、3、4、5 种 语言 来 学 习 。 对 
他 们 而 言 ， 在 另 一 种 语言 中 遇 到 过 的 老 问 题 将 有 助 于 他 们 提高 学 习 Python 的 速度 ， 本 书 也 许可 
作为 他 们 求职 面试 前 不 错 的 复习 资料 ， 或 者 会 揭示 出 一 些 以 前 工作 中 没有 想 过 的 问题 解决 技术 。 
建议 这 些 人 先 浏览 一 下 目录 ， 看 看 本 书 中 是 否 有 令 他 们 兴奋 的 主题 。 


什么 是 经 典 计 算 机 科学 问题 

有 人 说 计算 机 之 于 计算 机 科学 ,如 同 望 远 镜 之 于 天 文学 一 样 。 假 如 真是 这 样 , 那么 编程 语言 
也 许 就 如 同 望 远 镜 的 镜头 。 不 管 怎么 说 ， 本 书 所 用 的 “经 典 计算 机 科学 问题 ”一 词 ， 指 的 是 “ 通 
常 在 本 科 计 算 机 科学 课程 中 教授 的 编程 问题 ”。 

新 手 程序 员 总 会 遇 到 一 些 编程 问题 需要 解决 ， 这 些 问 题 已 非常 常见 ， 堪 称 经 典 。 无 论 是 在 攻 
读 计 算 机 科学 、 软 件 工程 等 学 士 学 位 的 课堂 上 ,还 是 在 中 级 编程 教材 中 (如 和 人工 智 能 或 算法 的 人 
门 书 )， 均 是 如 此 。 本 书 精 选 了 一 些 这 样 的 问题 。 

这 些 问 题 可 以 简单 到 只 用 几 行 代码 就 能 解决 , 也 可 以 复杂 到 需要 通过 多 个 章节 的 讲解 来 逐步 
搭建 一 个 系统 。 有 些 问 题 涉 及 人 工 智能 ， 而 另 一 些 问题 则 只 需要 常识 就 可 以 解决 。 有 些 问 题 比较 
贴近 实际 ， 而 另 一 些 问题 则 需要 想象 力 。 


本 书 中 的 问题 种 类 

第 1 章 介绍 多 数 读者 大 概 都 熟悉 的 问题 解决 技术 ， 诸 如 递归 、 结 果 缓 存 (memoization ) 和 
位 操作 之 类 的 后 续 章 节 探 讨 的 其 他 技术 所 需 的 基本 构件 。 

第 2 章 的 重点 是 搜索 问题 。 搜 索 是 一 个 庞大 的 议题 , 可 以 说 本 书 中 的 大 部 分 问题 都 能 归属 于 
它 。 这 一 章 介绍 了 最 重要 的 搜索 算法 ,包括 二 分 搜索 、 深 度 优 先 搜索 、 广 度 优 先 搜索 和 ARR. 
本 书 的 其 余部 分 都 会 反复 用 到 这 些 算法 。 

第 3 章 将 搭建 一 个 用 于 解决 多 类 问题 的 框架 , 这 些 问题 可 以 由 带 约束 的 有 限 域 变量 进行 抽象 
化 定义 ， 包括 八 皇后 问题 、 澳 大 利 亚 地 图 着 色 问 题 和 算式 谜 题 “SEND+MORE=MONEY” 等 经 
典 问题 。 

第 4 章 探讨 图 的 算法 , 外 行人 将 对 这 些 图 算法 的 应 用 范围 之 广 表示 惊叹 。 本 章 将 构建 图 的 数 
据 结 构 ， 然 后 用 它 来 解决 几 个 经 典 的 优化 问题 。 

第 5 章 探讨 遗传 算法 , 它 的 确定 性 尚 不 如 本 书 的 其 他 大 部 分 算法 , 但 有 时 可 以 用 它 解决 那些 
用 传统 算法 在 合理 时 间 内 无 法 找到 解 的 问题 。 

第 6 章 介 绍 丰 均值 聚 类 算法 ,这 可 能 是 本 书 最 专注 于 其 一 算法 的 章节 了 。 这 种 聚 类 技术 易于 




























































































































































































引言 3 





实现 、 简 单 易 慌 且 应 用 广泛 。 

第 7 章 旨 在 解释 什么 是 神经 网 络 , 让 读者 见识 一 个 十 分 简单 的 神经 网 络 。 这 一 童 的 目标 并 非 
要 全 面 介绍 这 一 激动 人 心 且 不 断 发 展 的 领域 。 本 章 将 遵循 第 一 性 原理 从 头 开 始 措 建 神经 网 络 , 不 
用 任何 外 部 库 ， 因 此 读者 可 以 真正 了 解 神经 网 络 的 工作 原理 。 
第 8 童 介绍 双人 全 信息 对 奕 游戏 中 的 对 抗 搜 索 算法 。 本 章 将 介绍 一 种 极 小 化 极 大 搜索 算法 ， 
可 用 于 开发 一 个 会 玩 国际 象棋 、 跳 棋 和 四 子 棋 等 游戏 的 仿真 棋 手 。 


最 后 是 第 9 章 ， 介 绍 几 个 有 趣 好 玩 儿 的 问题 ， 这 些 问题 放 在 本 书 的 其 他 地 方 都 不 太 合 适 。 


本 书 的 目标 读者 

本 书 既 适 合 经 验 丰 富 的 程序 员 , 也 适合 中 级 程序 员 。 想 要 对 Python 加 深 认识 的 经 验 丰 富 
的 程序 员 将 能 从 计算 机 科学 或 编程 课程 中 轻松 发 现 熟悉 的 问题 。 中 级 程序 员 则 会 被 引领 着 用 
Python 语言 来 解决 这 些 经 典 问题 。 准 备 参加 编程 面试 的 开发 人 员 也 可 能 会 发 现 本 书 是 一 份 有 
用 的 准备 材料 。 

除 专业 的 程序 员 之 外 ， 对 Python 感 兴趣 的 计算 机 科学 专业 本 科 在 校生 可 能 也 会 觉得 本 书 很 
有 用 处 。 本 书 并 没有 严肃 地 讲解 数据 结构 和 算法 。 这 不 是 一 本 数据 结构 和 算法 的 教材 。 这 里 既 没 
有 证 明 过 程 ， 也 没有 多 少 大 O 符号 。 本 书 的 定位 是 通俗 易 懂 、 便 于 实践 的 教程 ， 目 标 是 介绍 问 
题解 决 技术 ， 这 些 技术 应 该 是 学 习 数据 结构 、 算 法 和 人 工 智能 课程 之 后 的 成 果 。 

再 次 强调 一 下 ， 本 书 假定 读者 已 具备 了 Python 语法 和 语义 的 知识 。 毫 无 编程 经 验 的 读者 从 
本 书 中 得 不 到 什么 益处 ， 而 没有 Python 经 验 的 程序 员 也 一 定 会 举步维艰 。 换 句 话 说 ， 本 书 适合 
Python 程序 员 和 计算 机 科学 专业 的 学 生 。 


Python 版 本 、 源 代码 库 和 类 型 提示 

本 书 中 的 源 代码 遵守 Python 语言 的 3.7 版 的 规范 。 代 码 运 用 到 了 只 有 Python 3.7 才 提供 的 
Python 特性 ， 因 此 有 些 代码 无 法 在 低 版 本 的 Python 中 运行 。 请 不 必 费 力 让 这 些 示例 代码 在 低 版 
本 的 Python 中 运行 了 ， 先 下 载 最 新 版 的 Python 吧 。 
本 书 只 会 用 到 Python 的 标准 库 ( 第 2 章 略 有 例外 ， 其 中 安装 了 typing extensions 模 
H), 因此 本 书 的 所 有 代码 应 该 在 所 有 支持 Python 的 平台 上 (macOS, Windows, GNU/Linux 等 ) 
都 能 运行 。 虽然 本 书 的 大 部 分 代码 在 其 他 兼容 版 本 的 Python 3.7 解释 器 中 可 能 也 能 运行 ,但 它们 
仅 在 CPython (Python 官方 提供 的 主流 Python 解释 器 ) 中 进行 了 测试 。 

本 书 不 会 介绍 Python 工具 的 用 法 ， 如 编辑 器 、IDE、 调 试 器 和 Python REPL。 本 书 中 的 
源 代码 可 在 GitHub 上 搜索 “Classic Computer Science Problems in Python” 来 获取 。 这 些 源 代 
人 码 按 章 放置 在 相应 的 文件 夹 中 。 在 每 章 内 容 中 代码 清单 的 开头 都 带 有 源 文件 的 名 称 ， 在 代码 
仓库 的 对 应 文件 夹 中 即 可 找到 该 源 文件 ， 只 要 输入 python3 filename.py 或 python 
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4 引言 





filename .py 就 应 该 能 运行 该 章 问题 对 应 的 代码 ，Python 3 解释 器 的 名 称 则 取决 于 当前 计 
算 机 的 环境 设置 。 

本 书 的 所 有 代码 清单 全 都 用 到 了 Python 类 型 提示 (type hint) 特性 ， 也 称 为 类 型 注解 (type 
annotation )。 类 型 提示 是 Python 语言 相对 较 新 的 一 种 特性 ， 对 从 未 见 过 它们 的 Python 程序 员 而 
言 ， 或 许 有 点 儿 望 而 生 旦 。 使 用 类 型 提示 的 原因 有 以 下 3 点 。 

(1) 明晰 了 变量 、 函 数 参数 和 函数 返回 值 的 类 型 。 

(2) 有 了 第 1 点 ， 在 某 种 程度 上 就 实现 了 代码 的 自 文档 化 ( self-document )。 再 也 不 必 通 过 
搜索 注释 或 文档 字符 串 ( docstring ) 来 了 解 函 数 的 返回 类 型 了 ， 只 需 查 看 其 签名 即 可 。 

(3 ) 允许 对 代码 进行 类 型 检查 ， 以 确保 正确 性 。mypy 就 是 一 种 流行 的 Python 类 型 检查 
程序 。 

并 非 每 个 人 都 会 喜欢 类 型 提示 , 坦率 地 说 本 书 通 篇 采用 这 一 特性 就 是 冒险 。 我 希望 类 型 提示 
能 够 提供 一 些 帮助 ， 而 不 是 成 为 一 种 障碍 。 编 写 带 有 类 型 提示 的 Python 代码 需要 花费 更 多 的 时 
间 ， 但 是 在 回 过 头 来 阅读 代码 时 会 更 加 清晰 。 有 意思 的 是 ， 类 型 提示 对 在 Python 解释 器 中 实际 
运行 代码 没有 丝毫 影响 。 对 于 本 书 任何 代码 ， 如 果 把 类 型 提示 删 掉 ， 代 码 应 该 照常 运行 。 如 果 读 
者 以 前 从 未 见 过 类 型 提示 , 并且 在 深入 学 习 本 书 之 前 需要 对 其 进行 更 全 面 的 了 解 , 请 参阅 附录 C, 
那里 给 出 了 一 党 关于 类 型 提示 特性 的 速成 课 。 


没有 图 形 界面 和 UI 代码 ， 只 用 标准 库 

本 书 没有 包含 产生 图 形 输出 或 用 到 图 形 用 户 界面 4《GUI ) 的 示例 。 因 为 本 书 的 目标 是 用 尽 可 
能 简洁 、 可 读 性 良好 的 方案 来 解决 问题 。 采用 图 形 界面 通常 会 增加 负担 , 或 者 让 阐述 技术 或 算法 
的 解决 方案 显著 增加 复杂 度 。 

不 仅 如 此 , 由 于 没有 用 到 任何 GUI 框架 ,本 书 所 有 代码 的 可 移植 性 都 非常 好 。 无 论 是 在 Linux 
的 Python 内 和 散发 行 版 上 上， 还 是 在 运行 Windows 的 桌面 端 ， 这 些 代码 都 可 以 轻松 运行 。 而 且 本 书 
特意 没有 采用 任何 外 部 库 ， 而 是 决定 只 采用 Python 标准 库 中 的 程序 包 ， 大 多 数 高 级 Python 教程 
也 是 如 此 。 因 为 本 书 的 目标 是 遵照 第 一 性 原理 讲授 问题 解决 技术 ， 而 不 是 讲解 “用 pip 安装 某 个 
解决 方案 "”。 只 有 从 头 开始 解决 每 个 问题 ， 才 有 可 能 理解 那些 广 受 欢迎 的 库 背 后 的 工作 原理 。 至 
少 ， 只 采用 标准 库 能 让 本 书 代码 具有 更 好 的 可 移植 性 ， 也 更 容易 运行 。 

当然 图 形 化 解决 方案 有 时 会 比 基 于 文本 的 解决 方案 更 能 说 明 算法 。 只 是 本 书 的 重点 不 在 于 此 
黑 了 。 它 会 多 一 层 不 必要 的 复 林 性 。 


系列 书 之 一 
这 是 Manning 出 版 的 “Classic Computer Science Problems”( 经 典 计算 机 科学 问题 ) 系列 书 的 
第 二 本 ， 第 一 本 是 Classic Computer Science Problems in Swift, GF 2018 年 出 版 。 透 过 几乎 同样 


































































































































































































引言 





的 计算 机 科学 问题 这 一 “镜头 ”， 该 系列 书 的 目标 是 要 在 教学 过 程 中 结合 具体 编程 语言 给 出 一 定 
的 见解 。 

如 果 你 喜爱 本 书 并 打算 学 习 该 系列 书 涵盖 的 其 他 语言 ,就 会 发 现 从 一 本 书 转 到 男 一 本 书 是 
提升 该 语言 掌握 程度 的 一 种 简单 方法 。 到 目前 为 止 , 该 系列 书 只 涵盖 了 Swift 语言 和 Python 语 
言 。 因 为 我 对 这 两 种 语言 都 有 丰富 的 经 验 ， 所 以 这 两 本 书 都 是 我 写 的 ,但 我 们 已 经 在 讨论 以 后 
的 系列 书 的 出 版 计划 了 ,打算 由 其 他 编程 语言 的 专家 来 进行 合 著 。 如 果 你 喜欢 这 本 书 , 希望 能 
留意 该 系列 书 。 
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首先 来 探讨 一 些 简 单 的 小 问题 ， 只 需 用 几 个 相对 短小 的 函数 即 可 解决 。 这 些 问 题 虽然 都 
是 些小 问题 ,但 仍 可 以 用 来 探讨 一 些 有 趣 的 问题 解决 技巧 。 就 把 它们 当 作 是 一 次 很 好 的 热身 
体验 吧 。 


11 斐 波 那 契 序列 


斐 波 那 契 序列 (Fibonacci sequence ) 是 一 系列 数字 ， 其 中 除 第 1 个 和 第 2 个 数字 之 外 ， 其 他 
数字 都 是 前 两 个 数字 之 和 : 














0, 1, 1, 2, 3, 5, 8, 13, 21, = 


在 此 序列 中 , 第 1 个 裴 波 那 契 数 是 0。 第 4 MERI RAE 2. JAE ERARA n 的 值 
可 用 以 下 公式 求 得 : 








fib(n) = fib(n — 1) + fib(n — 2) 


1.1.1 尝试 第 一 次 递归 


上 述 计算 斐 波 那 契 序列 数 (如 图 1-1 所 示 ) 的 公式 是 一 种 伪 代 码 形式 ， 可 将 其 简单 地 转 
换 为 一 个 Python 递归 函数 ， 如 代码 清单 1-1 和 代码 清单 1-2 所 示 。 所 谓 递归 函数 是 一 种 调用 
自己 的 函数 。 这 次 机 械 的 转换 将 作为 你 编写 函数 的 首次 尝试 ， 返 回 的 是 斐 波 那 契 序 列 中 的 给 
定数 。 


代码 清单 1-1 fib1.py 


def fibl(n: int) -> int: 
return fibl(n - 1) + fibl(n - 2) 
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WHR IR UM STE 











我 的 身高 
是 前 两 位 火柴 人 
身高 之 和 


图 1-1 每 个 火柴 人 的 身高 都 是 前 两 个 火柴 人 身高 之 和 
下 面试 着 带 上 参数 值 来 调用 这 个 函数 。 

















代码 清单 1-2 fib1.py ( 续 ) 


if name == "_main 


print (fib1(5)) 
若 我 们 运行 fb1.py， 系 统 就 会 生成 一 条 错误 消息 : 
RecursionError: maximum recursion depth exceeded 
这 里 有 一 个 问题 ，fibl () 将 一 直 运行 下 去 ， 而 不 会 返回 最 终结 果 。 每 次 调用 fibl () 都 会 
再 多 调用 两 次 fib1 () ， 如 此 反复 永 无 止境 。 这 种 情况 被 称 为 无 限 递归 〈 如 图 1-2 所 示 )， 类 似 
于 无 限 循 环 (infinite loop )。 





一 遍 又 一 遍地 递归 调用 。 





图 1-2 ”递归 函数 fib(n) 带 上 参数 n-2 和 n-1 调用 自己 





1.1 辈 波 那 契 序列 


oo 


1.1.2 ”基线 条 件 的 运用 


请 注意 ,在 运行 fibl () 之 前 ，Python 运行 环境 不 会 有 任何 提示 有 错误 存在 。 避 免 无 限 递归 
程序 员 负 责 ， 而 不 由 编译 器 或 解释 器 负责 。 出 现 无 限 递 归 的 原因 是 尚未 指定 基线 条 件 (base 
case )。 在 递归 函数 中 ， 基 线条 件 即 函 数 终 止 运行 的 时 点 。 

就 斐 波 那 契 函数 而 言 , 天然 存在 两 个 基线 条 件 , 其 形式 就 是 序列 最 开始 的 两 个 特殊 数字 0 和 
1。0 和 1 都 不 是 由 序列 的 前 两 个 数 求 和 得 来 的 ， 而 是 序列 最 开始 的 两 个 特殊 数字 。 那 就 试 着 将 
其 设 为 基线 条 件 吧 ， 具 体 代码 如 代码 清单 1-3 所 示 。 


代码 清单 1-3 fib2.py 


def fib2(n: int) -> int: 





EE 


if n < 2: # base case 
return n 
return fib2(n - 2) + fib2(n - 1) # recursive case 








HB LRAMRBRH fib2 () 版 本 将 返回 0 作为 第 0 个 数 (fib2 (0) )， 而 不 是 第 一 个 数 ， 这 正 
符合 我 们 的 本 意 。 这 在 编程 时 很 有 意义 ， 因 为 大 家 已 经 习惯 了 序列 从 第 0 个 元 素 开始 。 


fib2 () 能 被 调用 成 功 并 将 返回 正确 的 结果 。 可 以 用 几 个 较 小 的 数 斌 着 调用 一 下 ， 具 体 代码 
如 代码 清单 1-4 所 示 。 


代码 清单 1-4 fib2.py ( 续 ) 


if name == "main 
print (fib2 (5) ) 
print (fib2(10)) 
» 试 调用 fib2 (50) ， 因 为 它 永 远 不 会 终止 运行 ! 每 次 调用 fip2 () 都 会 再 调用 两 次 
fib2 () ,方式 就 是 递归 调用 fib2(n - 1) 和 fib2(n - 2) (如 图 1-3 所 示 )。 换 名 话说 ,这 


> 例如 ， 调 用 fib2 (4) 将 产生 如 下 一 整套 调用 : 














fib2 (4) -> fib2(3), fib2 (2) 
fib2(3) -> fib2(2), fib2(1) 
fib2(2) -> fib2(1), fib2(0) 
fib2(2) -> fib2(1), fib2(0) 
LOZ) I 
fib2 (1) -> 1 
fib24I) Sa 1 
fib2(0) -> 0 
fib2(0) -> 0 
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不 妨 来 数 一 下 (如果 加 入 几 次 打印 函数 调用 即 可 看 明白 )， 仅 为 了 计算 第 4 个 元 素 就 需要 调 
用 9 次 fip2()! 情况 会 越 来 越 糟糕 ,计算 第 5 个 元 素 需 要 调用 15 次 ,计算 第 10 个 元 素 需 要 调 
用 117 次 ,计算 第 20 个 元 素 需 要 调用 21891 次 。 我 们 应 该 能 改善 这 种 情况 。 


fib2(4) 


”> ee 


fib2(3) fib2(2) 


/\ 人 


fib2(2) fib2(1) fib2(1) fib2(0) 


f\ fof | 


fib2(1) fib2(0) 1 1 0 























1 0 
图 1-3 ”每 次 非 基线 条 件 下 的 fib2 () 调用 都 会 再 生成 两 次 fip2 () 调用 














1.1.3 ”用 结果 缓存 来 救 场 


结果 缓存 (memoization ) 是 一 种 缓存 技术 ， 即 在 每 次 计算 任务 完成 后 就 把 结果 保存 起 来 ， 
这 样 在 下 次 需要 时 即 可 直接 检索 出 结果 ， 而 不 需要 一 而 再 再 而 三 地 重复 计算 ( 如 图 1-4 所 示 ) “。 


RAN ? 
i Sete (oa) n 


我 不 知道 n。 
/ N / N 































在 记忆 中 查找 n。 


Q 







F 


i 

















图 1-4 人 类 的 记忆 缓存 














D 英国 知名 计算 机 科学 家 Donald Michie 创造 了 memoization 这 个 术语 。 参 见 Donald Michie 的 Memo 
functions: a language feature with “rote-learning” properties ( Edinburgh University, Department of Machine 
Intelligence and Perception, 1967 )。 
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[| 


下 面 创建 一 个 新 版 的 斐 波 那 契 函数 ,利用 Python 的 字典 对 象 作为 结果 缓存 ， 如 代码 清单 1-5 
所 示 。 


代码 清单 1-5 fib3.py 


from typing import Dict 


memo: Dict[int, int] = {0: 0, 1: 1} # our base cases 


def fib3(n: int) -> int: 
if n not in memo: 
memo[n] = fib3(n - 1) + fib3(n - 2) # memoization 


return memo[n] 


现在 就 可 以 放心 地 调用 fib3 (50) 了， 如 代码 清单 1-6 所 示 。 


代码 清单 1-6 fib3.py ( 续 ) 


if name == "main 
print (fib3 (5) ) 
print (£fib3 (50) ) 
现在 一 次 调用 fib3 (20) 只 会 产生 39 次 fib3 () 调用 ， 而 不 会 像 调 用 fib2 (20) 那样 产生 
21891 次 fib2 () 调用 。memo 中 预 填 了 之 前 的 基线 条 件 0 和 1， 并 加 了 一 条 if 语句 大 幅 降低 了 


fib3 () 的 计算 复杂 度 。 


1.1.4 自动 化 的 结果 缓存 


还 可 以 对 £ib3 () 做 进一步 的 简化 。Python 自 带 了 一 个 内 置 的 装饰 器 (decorator )， 可 以 自动 为 任 
何 函 数 缓存 结果 。 如 代码 清单 1-7 所 示 , 在 fib4 () 中 ,装饰 器 efunctools.1ru_cache () 所 用 
的 代码 与 fib2 () 中 所 用 的 代码 完全 相同 。 每 次 用 新 的 参数 执行 fib4 () 时 ， 该 装饰 器 就 会 把 返 
回 值 缓存 起 来 。 ee fib4 () 时 ， 都 会 从 缓存 中 读 取 该 参数 对 应 的 fib4 () 
之 前 的 返回 值 并 返 


代码 清单 1-7 fib4.py 


from functools import lru_cache 





@lru_cache (maxsize=None) 
def fib4(n: int) -> int: # same definition as fib2/() 
if n < 2: # base case 
return n 


return fib4(n - 2) + fib4(n - 1) # recursive case 
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if name == "_ main 


print (fib4 (5) ) 
print (fib4 (50) ) 


TERR, BAI EERI IZ BURRESS fip2 O 中 的 函数 体 部 分 相同 ， 但 能 立刻 计算 出 
fib4 (50) 的 结果 。@1lru_cache 的 maxsize 属性 表示 对 所 装饰 的 函数 最 多 应 该 缓存 多 少 次 最 
近 的 调用 结果 ， 如 果 将 其 设置 为 None 就 表示 没有 限 种 






































= 
ce} 
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还 有 一 种 性 能 更 好 的 做 法 , 即 可 以 用 老式 的 迭代 法 来 解决 斐 波 那 契 问题 , 如 代码 清单 1-8 
所 示 。 


代码 清单 1-8 fib5.py 


def fib5(n: int) -> int: 
if n == 0: return n # special case 
last: int = 0 # initially set to fib/(0) 
next: int = 1 # initially set to fib(1) 
for _ in range(1, n): 
last, next = next, last + next 


return next 


print (fib5(5)) 
print (fib5(50)) 
警告 fipb5() 中 的 for 循环 体 用 到 了 元 组 (tuple) 解 包 操作 ,或 许 这 有 点 儿 过 于 卖弄 了 。 有 些 人 
可 能 会 觉得 这 是 为 了 简洁 而 牺牲 了 可 读 性 ， 还 有 些 人 可 能 会 发 现 简洁 本 身 就 更 具 可 读 性 ， 这 里 的 要 
领 就 是 last 被 设置 为 next 的 上 一 个 值 ，next 被 设置 为 last 的 上 一 个 值 加 上 next 的 上 一 个 值 。 
这 样 在 last 已 更 新 而 next 未 更 新 时 ， 就 不 用 创建 临时 变量 以 存储 next 的 上 一 个 值 了 。 以 这 种 
形式 使 用 元 组 解 包 来 实现 某 种 变量 交换 的 做 法 在 Python 中 十 分 常见 。 
以 上 方案 中 ，for 循环 体 最 多 会 运行 n-1 次 。 换 名 话说， 这 是 效率 最 高 的 版 本 。 为 了 计算 
第 20 个 斐 波 那 契 数 ， 这 里 的 for 循环 体 只 运行 了 19 次， 而 fip2 () 则 需要 21891 次 递归 调用 。 
对 现实 世界 中 的 应 用 程序 而 言 ， 这 种 强烈 的 反差 将 会 造成 巨大 的 差异 ! 
递归 解决 方案 是 反 向 求解 ,而 迭代 解决 方案 则 是 正 向 求解 。 有 时 递归 是 最 直观 的 问题 解决 方 
案 。 例 如 ，fib1 OF fib2 () 的 函数 体 几乎 就 是 原始 斐 波 那 契 公式 的 机 械 式 转换 。 然 而 直观 的 
递归 解决 方案 也 可 能 伴随 着 巨大 的 性 能 损耗 。 请 记 住 ,能 用 递归 方式 求解 的 问题 也 都 能 用 迭代 方 
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1.1.6 ”用 生成 器 生成 斐 波 那 契 数 


到 目前 为 止 , 已 完成 的 这 些 函 数 都 只 能 输出 斐 波 那 契 序列 中 的 单个 值 。 如 果 要 将 到 某 个 值 之 
前 的 整个 序列 输出 ,又 该 怎么 做 呢 ? 用 yield 语句 很 容易 就 能 把 fibs () 转换 为 Python ÆA o 
在 对 生成 器 进行 迭代 时 ， 每 轮 迭 代 都 会 用 yield 语句 从 斐 波 那 契 序列 中 吐出 一 个 值 ， 如 代码 清 
单 1-9 所 示 。 


代码 清单 1-9 fib6.py 


from typing import Generator 

















def fib6(n: int) -> Generator[int, None, None]: 
yield 0 # special case 
if n > 0: yield 1 # special case 
last: int = 0 # initially set to fib/(0) 
next: int = 1 # initially set to fib/(1) 
for in range(1, n): 
last, next = next, last + next 
yield next # main generation step 
if name == "_main_" 
for i in f1ib6(50): 
print (i) 


运行 fib6.py 将 会 打印 出 斐 波 那 契 序列 的 前 51 个 数 。for 循环 for i in fib6 (50) :每 一 
次 迭代 时 ，fib6 () 都 会 一 路 运行 至 某 条 yield 语句 。 如 果 直 到 汤 数 的 末尾 也 没 遇 到 yield if 
A, AMERRE. 








12 简单 的 压缩 算法 


无 论 是 在 虚拟 环境 还 是 在 现实 世界 ,节省 空间 往往 都 十 分 重要 。 空 间 占用 越 少 , 利用 率 就 越 
高 ， 也 会 更 省 钱 。 如 果 租用 的 公寓 大 小 超过 了 家 中 人 和 物 所 需 的 空间 ， 你 就 可 以 “ 缩 ” 到 小 一点 
的 地 方 去 , 租金 也 会 更 便宜 。 如 果 数 据 存储 在 服务 器 上 是 按 字 节 付 费 的 ,那么 或 许 就 该 压缩 一 下 
数据 ， 以 便 降低 存储 成 本 。 压 缩 就 是 读 取 数据 并 对 其 进行 编码 ( 修改 格式 ) 的 操作 ， 以 便 减少 数 
据 占用 的 空间 。 解 压缩 则 是 逆 过 程 ， 即 把 数据 恢复 为 原始 格式 。 

既然 压缩 数据 的 存储 效率 更 高 ， 那 么 为 什么 不 把 所 有 数据 全 部 压缩 一 遍 呢 ? 这 里 就 存在 一 
个 在 时 间 和 空间 之 间 进 行 权衡 的 问题 。 压缩 一 段 数据 并 将 其 解压 回 其 原始 格式 需要 耗费 一 定 的 
时 间 。 因 此 ， 只 有 在 数据 大 小 优先 于 数据 传输 速度 的 情况 下 ， 数 据 压缩 才 有 意义 。 考 虑 一 下 
通过 互联 网 传输 的 大 文件 ， 对 它们 进行 压缩 是 有 道理 的 ， 因 为 传输 文件 所 花 的 时 间 要 比 收 到 
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文件 后 解压 的 时 间 长 。 此 外 ， 为 了 能 在 服务 器 上 存储 文件 而 对 其 进行 压缩 所 花费 的 时 间 则 只 
需 算 一 次 。 

数据 类 型 占用 的 二 进 制 位 数 要 比 其 内 容 实际 需要 的 多 ,只 要 意识 到 这 一 点 ,就 可 以 产生 最 简 
单 的 数据 压缩 方案 。 例如， 从 底层 考虑 一 下 ， 如果 一 个 永远 不 会 超过 65535 的 无 符号 整数 在 内 存 
中 被 存储 为 64 位 无 符号 整数 ,其 存储 效率 就 很 低 。 对 此 的 蔡 代 方案 可 以 是 存储 为 16 位 无 符号 整 
数 ， 这 会 让 该 整数 实际 占用 的 空间 减少 75% (64 位 换 成 了 16 位 )。 如 果 有 数 百 万 个 这 样 的 整数 
的 存储 效率 都 如 此 低下 ， 那 么 浪费 的 空间 累计 可 能 会 达到 数 兆 字 节 。 

为 简单 起 见 ( 当然 这 是 一 个 合情合理 的 目标 )， 有 时候 开发 人 员 在 Python 里 可 以 不 用 以 二 进 
制 位 方式 来 考虑 问题 。 Python 没有 64 位 无 符号 整数 类 型 ,也 没有 16 位 无 符号 整数 类 型 。 这 里 只 
有 一 种 int 类 型 ,可 以 存储 任意 精度 的 数值 。 用 函数 sys .getsizeof () 可 以 查 出 Python 对 象 
占用 的 内 存 字 节 数 。 但 由 于 Python 对 象 系统 的 固有 开销 ， 在 Python 3.7 中 无 法 创建 少 于 28 F 
(224 fiz) 的 int 类 型 。 每 个 int 类 型 对 象 每 次 可 以 扩大 1 个 二 进 制 位 〈 本 例 就 会 如 此 操作 )， 
但 最 少 也 要 占用 28 字 节 。 

注意 “如果 对 二 进 制 有 点 生 芷 ,请 记得 每 个 二 进 制 位 就 是 一 个 1 或 0 的 值 。 以 2 为 进 制 读 出 的 一 系 

列 1 和 0 就 可 以 表示 一 个 数 。 按照 本 节 的 讲解 目标 ， 不 需要 以 2 为 进 制 进行 任何 数学 运算 ， 但 需要 

理解 某 个 数据 类 型 的 存储 位 数 决定 了 它 可 以 表示 的 不 同 数值 的 个 数 。 例 如 ，1 个 二 进 制 位 可 以 表示 

2 个 值 (0 或 1)， 2 个 二 进 制 位 可 以 表示 4 个 值 (00、01、10、11 )，3 个 二 进 制 位 则 可 以 表示 8 个 

值 ， 以 此 类 推 。 


如 果 某 个 类 型 需要 表示 的 不 同 值 的 数量 少 于 存储 二 进 制 位 可 表示 值 的 数量 , 或 许 存储 效率 就 
能 得 以 提高 。 不 妨 考虑 一 下 DNA 中 组 成 基因 的 核 苷 酸 ”。 每 个 核 苷 酸 的 值 只 能 是 这 4 种 之 一 : A, 
C, GRT (更 多 相关 信息 将 会 在 第 2 章 中 介绍 )。 如 果 基 因 用 str 类 型 存储 ( str 可 被 视 作 
Unicode 字符 的 集合 ), 那么 每 个 核 苷 酸 将 由 1 个 字符 表示 , 每 个 字符 通常 需要 8 个 二 进 制 位 的 存 
储 空间 。 如 果 采 用 二 进 制 ， 则 有 4 种 可 能 值 的 类 型 只 需要 用 2 个 二 进 制 位 来 存储 ，00、01、10 
和 11 就 是 可 由 2 个 二 进 制 位 表示 的 4 种 不 同 值 。 如 果 A 赋值 为 00、C 赋值 为 01、G 赋值 为 10、 
T 赋值 为 11, 那么 一 个 核 苷 酸 字 符 串 所 需 的 存储 空间 可 以 减少 75% ( 每 个 核 苷 酸 从 8 个 二 进 制 位 
减少 到 2 个 二 进 制 位 )。 

因此 可 以 不 把 核 芽 酸 存储 为 str 类 型 ， 而 存储 为 位 事 ( bit string) 类 型 (如 图 1-5 所 示 )。 
正如 其 名 ， 位 串 就 是 任意 长 度 的 一 系列 1 和 0。 FERE, Python 标准 库 中 不 包含 可 处 理 任意 长 
度 位 串 的 现成 结构 体 。 代 码 清单 1-10 中 的 代码 将 把 一 个 由 A、C、G 和 T 组 成 的 str 转换 为 位 
串 ， 然 后 再 转换 回 str。 位 串 存 储 在 int 类 型 中 。 因 为 Python 中 的 int 类 型 可 以 是 任意 长 度 ， 
所 以 它 可 以 当成 任意 长 度 的 位 串 来 使 用 。 为 了 将 位 串 类 型 转换 回 str 类 型 ， 就 需要 实现 Python 
的 特殊 方法 “str __()。 


































































































































































































© 本 例 受 到 了 Robert Sedgewick 和 Kevin Wayne 的 《算法 (第 4 版 )》( 第 819 H) 的 启发 。 
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str 形 式 


DD: 


8 位 8 位 8 位 














001110 
6 位 oo |+ | 11 | + | 10 
2 位 2 位 2 位 


位 串 形式 
图 1-5 ”将 代表 基因 的 str 压缩 为 每 个 核 苷 酸 占 2 位 的 位 串 


























代码 清单 1-10 trivial_compression.py 
class CompressedGene: 


def init (self, gene: str) -> None: 


self. compress (gene) 


CompressedGene 类 需要 给 定 一 个 代表 基因 中 核 背 酸 的 str FR, ARRE 
Fel Fe fie A init () 方 法 的 主要 职责 是 用 适当 的 数据 初始 化 位 串 结 构 体 。 
_init _() 将 调用 _compress() ， 将 给 定 核 背 酸 str 转换 成 位 串 的 苦力 活 实际 由 


_compress () 完成 。 











注意 ，_compress () 是 以 下 划 线 开头 的 。Python 没有 真正 的 私有 方法 或 变量 的 概念 。 所 
有 变量 和 方法 都 可 以 通过 反射 访问 到 ，Python 对 它们 没有 严格 的 强制 私有 策略 。 前 导 下 划 线 只 
是 一 种 约定 ,表示 类 的 外 部 不 应 依赖 其 方法 的 实现 。 这 一 类 方法 可 能 会 发 生变 化 ， 应 该 被 视 为 
私有 方法 。 

fen 如果 类 的 方法 或 实例 变量 名 用 两 个 下 划 线 开头 ，Python 将 会 对 其 进行 名 称 混淆 (name 

mangle )， 通 过 加 入 盐 值 (sat) 来 改变 其 在 实现 时 的 名 称 ， 使 其 不 易 被 其 他 类 发 现 。 本 书 用 一 条 下 

划 线 表示 “私有 ”变量 或 方法 ， 但 如 果真 要 强调 一 些 私 有 内 容 ， 或 许 得 用 两 条 下 划 线 才 合 适 。 要 获 

WAX Python 命名 的 更 多 信息 ， 参 阅 PEP 8 中 的 “描述 性 命名 风格 ”( Descriptive Naming Styles ) 

部 分 。 


下 面 介 绍 如 何 真 正 地 执行 压缩 操作 ， 具 体 代码 如 代码 清单 1-11 所 示 。 


MW 
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代码 清单 1-11 trivial_compression.py ( 2 ) 


def compress(self, gene: str) -> None: 
self.bit string: int = 1 # start with sentinel 
for nucleotide in gene.upper(): 


self.bit_string <<= 2 # shift left two bits 








if nucleotide == "A": # change last two bits to 00 
self.bit string |= 0b00 

elif nucleotide == "C": # change last two bits to 01 
self.bit string |= 0b01 

elif nucleotide == "G": # change last two bits to 10 
self -pit string |= 0b10 

elif nucleotide == "T": # change last two bits to 11 
self.bit string |= 0b11 

else: 


raise ValueError ("Invalid Nucleotide: {}".format (nucleotide) ) 


_compress () WYER RAFI str 中 的 每 一 个 字符 。 遇 到 A 就 把 00 加 入 位 串 ， 遇 到 
C 则 加 入 01， 依 次 类 推 。 请 记 住 ， 每 个 核 背 酸 需要 两 个 二 进 制 位 ， 因 此 在 加 入 新 的 核 昔 酸 之 前 ， 
要 把 位 串 向 左 移 两 位 (self.bit string<<= 2), 

添加 每 个 核 背 酸 都 是 用 “或 ”(|) 操作 进行 的 。 当 左 移 操作 完成 后 ， 位 串 的 右 侧 会 加 入 两 个 
0。 在 位 运算 过 程 中 ，0 与 其 他 任何 值 执行 “或 ”操作 (如 self.bit_string | = 0b10) 的 
结果 都 是 把 0 替换 为 该 值 。 换 名 话说， 就 是 在 位 串 的 右 侧 不 断 加 入 两 个 新 的 二 进 制 位 。 加 入 的 两 
个 位 的 值 将 视 核 昔 酸 的 类 型 而 定 。 

下 面 来 实现 解压 方法 和 调用 它 的 特殊 方法 str__() ， 如 代码 清单 1-12 所 示 。 





代码 清单 1-12 trivial_compression.py ( 4 ) 


def decompress(self) -> str: 
gene: str = "" 
for i in range(0, self.bit_string.bit_length() - 1, 2): # -1 to exclude sentinel 
bits: int = self.bit string >> I & 0b11 # get just 2 relevant bits 
if bits == 0b00: #A 
gene += "A" 


elif bits == 0b01: #C 


gene += "C" 

elif bits == 0b10: # G 
gene += "G" 

elif bits == 0b11: #7 





gene += "T" 
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else: 
raise ValueError("Invalid bits: {}".format (bits) ) 
return gene[::-1] # [::-1] reverses string by slicing backward 


def str (self) -> str: # string representation for pretty printing 


return self.decompress () 


decompress () 方法 每 次 将 从 位 串 中 读 取 两 个 位 ， 再 用 这 两 个 位 确定 要 加 入 基因 的 str Æ 
部 的 字符 。 与 压缩 时 的 读 取 顺 序 不 同 , 解压 时 位 的 读 取 是 自 后 向 前 进行 的 ( 从 右 到 左 而 不 是 从 左 
到 右 ), 因此 最 终 的 str 要 做 一 次 反 转 ( 用 切片 表示 法 进行 反 转 [ : :-1] )。 最 后 请 留意 一 下 , int 
类 型 的 pit_length () 方 法 给 decompress () 的 开发 带 来 了 很 大 便利 。 下 面 来 试 试 效果 吧 。 具 
体 代 码 如 代码 清单 1-13 所 示 。 








代码 清单 1-13 trivial_compression.py ( 续 ) 


if name == " main ": 
from sys import getsizeof 
original: str = "TAGGGATTAACCGTTATATATATATAGCCATGGATCGATTATATAGGGATTAACCGTTATA 
TATATATAGCCATGGATCGATTATA" * 100 
print ("original is {} bytes". format (getsizeof (original) )) 
compressed: CompressedGene = CompressedGene(original) # compress 
print ("compressed is {} bytes".format (getsizeof (compressed.bit string) )) 
print (compressed) # decompress 
print ("original and decompressed are the same: {}".format(original == 


compressed.decompress())) 


利用 sys.getsizeof () 方 法 ， 和 输出 结果 时 就 能 显示 出 来 ， 通 过 该 不 缩 方 案 确实 节省 了 基 
因数 据 大 约 75% 的 内 存 开销 。 具 体 代码 如 代码 清单 1-14 所 示 。 


代码 清单 1-14 trivial_compression.py 的 输出 结果 





original is 8649 bytes 
compressed is 2320 bytes 

TAGGGATTAACC... 

original and decompressed are the same: True 

注意 在 CompressedGene 类 中 ， 为 了 判断 压缩 方法 和 解压 方法 中 的 一 系列 条 件 ， 大 量 采 用 了 if 
语句 。 因 为 Python 没有 switch 语句 , 所 以 这 种 情况 有 点 儿 普遍 。 在 Python 中 有 时 还 会 出 现 一 种 情况 ， 
就 是 高 度 依靠 字典 对 象 来 代替 大 量 的 if 语句 ， 以 便 对 一 系列 的 条 件 做 出 处 理 。 不 妨 想象 一 下 ， 可 以 用 
字典 对 象 来 找 出 每 个 核 苦 酸 对 应 的 二 进 制 位 形式 。 有 时 字典 方案 的 可 读 性 会 更 好 ， 但 可 能 会 带 来 一 定 
的 性 能 开销 。 尽 管 查找 字典 在 技术 上 的 复杂 度 为 O(1)， 但 运行 哈 希 函数 存在 开销 ， 这 有 时 会 意味 着 字 
典 的 性 能 还 不 如 一 串 i£。 是 否 采用 字典 ， 取 决 于 具体 的 if£ 语句 做 判断 时 需要 进行 什么 计算 。 如 果 在 
关键 代码 段 中 要 在 多 个 if 和 查找 字典 中 做 出 取舍 ， 或 许 该 分 别 对 这 两 种 方法 运行 一 次 性 能 测试 。 
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13 牢 不 可 破 的 加 密 方 案 


一 次 性 密码 本 (one-time pad ) 是 一 种 加 密 数 据 的 方法 , 它 将 无 意义 的 随机 的 假 数据 ( dummy 
data ) 混入 数据 中 ， 这 样 在 无 法 同时 拿 到 加 密 结果 和 假 数据 的 情况 下 就 不 能 重建 原始 数据 。 这 实 




















质 上 是 给 加 密 程 序 配 上 了 密 钥 对 。 其 中 一 个 密 钥 是 加 密 结 明 





， 另 一 个 密 钥 则 是 随机 的 假 数 据 。 单 


个 密 钥 是 没有 用 的 ， 只 有 两 个 密 钥 的 组 合 才能 解密 出 原始 数据 。 只 要 运行 无 误 , 一 次 性 密码 本 就 


是 一 种 无 法 破解 的 加 密 方案 。 图 1-6 演示 了 这 一 过 程 。 




















图 1-6 一 次 性 密码 本 会 产生 两 个 密 钥 ， 它 们 可 以 分 开 存 放 ， 





后 续 可 再 组 合 起 来 以 重建 原始 数据 





1.3.1 FIRMA 


以 下 示例 将 用 一 次 性 密码 本 方案 加 密 一 个 srt, Python 3 AY str 类 型 有 一 种 用 法 可 被 视 为 
































UTF-8 字 节 序列 ( UTF-8 是 一 种 Unicode 字符 编码 ), 通 过 encode () 方 法 可 将 str 转换 为 UTF-8 
字 节 序列 (LI bytes 类 型 表示 ) F, FA bytes 类 型 的 decode () 方 法 可 将 UTF-8 字 节 序列 





























转换 回 str。 


一 次 性 密码 本 的 加 密 操 作 中 用 到 的 假 数据 必须 符合 3 条 标准 ， 这 样 最 终 的 结果 才 不 会 被 破 
解 。 假 数据 必须 与 原始 数据 长 度 相 同 、 真 正 随机 、 完 全 保密 。 第 1 条 标准 和 第 3 条 标准 是 常识 。 














如 果 假 数据 因为 太 短 而 出 现 重复 , 就 有 可 能 被 觉察 到 规律 。 如 于 
一 条 线索 。 第 2 条 标准 给 自己 出 了 一 道 


其 他 地 方 被 重复 使 用 或 部 分 泄露 )， 那 么 攻击 者 就 能 获得 





























其 一 个 密 钥 不 完全 保密 (可 能 在 





难题 : 能 和 否 生成 真正 随机 的 数据 ”大 多 数 计算 机 的 答案 都 是 否定 的 。 
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本 例 将 会 用 到 secrets 模块 的 伪 随 机 数据 来 生成 隐 数 token bytes() ( 自 Python 3.6 
开始 包含 在 于 标准 库 中 )。 这 里 的 数据 并 非 是 真正 随机 的 ， 因 为 secrets 包 在 幕后 采用 的 仍然 
是 伪 随 机 数 生成 器 , 但 它 已 足够 接近 目标 了 。 下 面 就 来 生成 一 个 用 作假 数据 的 随机 密 钥 , 具体 代 
码 如 代码 清单 1-15 所 示 。 


代码 清单 1-15 unbreakable_encryption.py 


from secrets import token bytes 





from typing import Tuple 


def random_key(length: int) -> int: 
# generate length random bytes 
tb: bytes = token bytes (length) 
# convert those bytes into a bit string and return it 
return int.from_bytes(tb, "big") 

以 上 函数 将 创建 一 个 长 度 为 length 字 节 的 int， 其 中 填充 的 数据 是 随机 生成 的 。int . 
from bytes () 方 法 用 于 将 bytes 转换 为 int。 如 何 将 多 字 节 数据 转换 为 单个 整数 呢 ? 答案 就 
在 1.2 节 。 在 1.2 节 中 已 经 介绍 过 int 类 型 可 为 任意 大 小 , 而 且 还 展示 了 int 能 被 当 作 通用 的 位 
串 来 使 用 。 本 节 以 同样 的 方式 使 用 int。 PAn, from bytes () 方 法 的 参数 是 7 字 节 (7 字 节 x 
8 位 / 字 节 = 56 位 ), 该 方法 会 将 这 个 参数 转换 为 56 位 的 整数 。 为 什么 这 种 方式 很 有 用 呢 ? 因为 与 
对 序列 中 的 多 字 节 进行 操作 相 比 ， 对 单个 int (RE KMR”) 进行 位 操作 将 更 加 简单 高 效 。 
下 面 将 会 用 到 XOR 位 运算 。 









































1.3.2 ”加 密 和 解密 


如 何 将 假 数 据 与 待 加 密 的 原始 数据 进行 合并 呢 ? 这 里 将 用 KOR 操作 来 完成 。XOR 是 一 种 逻 
辑 位 操作 (二进制 位 级 别 的 操作 )， 当 其 中 一 个 操作 数 为 真 时 返回 true, 而 如 果 两 个 操作 数 都 为 
真 或 都 不 为 真 则 返回 false。 可 能 大 家 都 已 猪 到 了 ，XOR 代表 “ 异 或 ”。 

Python 中 的 XOR 操作 符 是 “^”。 在 二 进 制 位 的 上 下 文中 ，0^1 和 1^0 将 返回 1， 而 0^0 
和 1^1 则 会 返回 0。 如 果 用 XOR 合并 两 个 数 的 二 进 制 位 ， 那么 把 结果 数 与 其 中 某 个 操作 数 重 新 
合并 即 可 生成 男 一 个 操作 数 ， 这 是 一 个 很 有 用 的 特性 。 





























A* B=C 
CcC* BHA 
c* A=B 


上 述 重 要 发 现 构 成 了 一 次 性 密码 本 加 密 方案 的 基础 。 为 了 生成 结果 数据 ， 只 要 简单 地 
将 原始 str 以 字 节 形式 表示 的 int 与 一 个 随机 生成 县 位 长 相同 的 int( 由 random_key () 
生成 ) 进 行 异 或 操作 即 可 。 返回 的 密 钥 对 就 是 假 数据 和 加 密 结果 。 具体 代码 如 代码 清单 1-16 
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所 示 。 





代码 清单 1-16 unbreakable_encryption.py ( 续 


def encrypt (original: str) -> Tuple[int, int]: 

original bytes: bytes = original.encode () 

dummy: int = random_key(len(original_ bytes) ) 

original _ key: int = int.from_bytes(original bytes, "big") 

encrypted: int = original_key ^ dummy # XOR 

return dummy, encrypted 
注意 :int.from bytes () 要 传 入 两 个 参数 。 第 一 个 参数 是 需要 转换 为 int 的 bytes, 第 二 个 
参数 是 这 些 字 节 的 字 节 序 (endianness ) "big"。 字 节 序 是 指 存储 数据 所 用 的 字 节 顺序 。 首先 读 到 
的 是 最 高 有 效 字 节 (most significant byte )， 还 是 最 低 有 效 字 节 (least significant byte) ?在 本 示例 
中 ， 只 要 加 密 和 解密 时 采用 相同 的 顺序 就 无 所 谓 ， 因 为 实际 只 会 在 单个 二 和 进 制 位 级 别 操作 数据 。 
如 果 是 在 编码 过 程 的 两 端 不 全 由 自己 掌控 的 其 他 场合 ， 字 节 序 可 能 是 至 关 重 要 的 因素 ， 所 以 请 务 
必 小 心 ! 


解密 过 程 只 是 将 encrypt () 生成 的 密 钥 对 重新 合并 而 已 。 只 要 在 两 个 密 钥 的 每 个 二 进 制 位 
之 间 再 次 执行 一 次 XOR 运算 ， 就 可 完成 解密 任务 了 。 最 终 的 输出 结果 必须 转换 回 str。 首 先 ， 
用 int.to_bytes () 将 int 转换 为 pytes。 该 方法 需要 给 定 int 要 转换 的 字 节 数 。 只 要 把 总 
位 长 除 以 8( 每 字 节 的 位 数 )， 就 能 获得 该 字 节 数 。 最 后 , 用 bytes 类 型 的 decode () 方 法 即 可 
返回 一 个 str。 具 体 代码 如 代码 清单 1-17 所 示 。 





























代码 清单 1-17 unbreakable_encryption.py ( 续 ) 


def decrypt (keyl: int, key2: int) -> str: 
decrypted: int = keyl ^ key2 # XOR 
temp: bytes = decrypted.to_bytes((decrypted.bit_length()+ 7) // 8, "big") 


return temp.decode() 
在 用 整除 操作 ( // ) 除 以 8 之 前 ， 必 须 给 解密 数据 的 长 度 加 上 7， 以 确保 能 “向 上 伟人 ”， 
避免 出 现 边界 差 一 〈off-by-one ) 错误 。 如 果 上 述 一 次 性 密码 本 的 加 密 过 程 确实 有 效 ， 那 么 应 该 
就 能 毫 无 问题 地 加 密 和 解密 Unicode 字符 串 了 。 上 有 具体 代码 如 代码 清单 1-18 所 示 。 





代码 清单 1-18 unbreakable_encryption.py ( 续 ) 





keyl, key2 = encrypt("One Time Pad!") 
result: str = decrypt(keyl, key2) 


print (result) 


如 果 控 制 台 输出 了 “one Time Pad!”， 就 万 事 大 吉 了 。 


1.5 DER 15 


14 计算 x 


数学 意义 重大 的 x (3.14159… ) 用 很 多 公式 都 可 以 推导 出 来 ,其 中 最 简单 的 公式 之 一 就 是 莱 

布 尼 茨 公 式 。 它 断定 以 下 无 穷 级 数 的 收敛 值 等 于 T: 
T= 4/1 — 4/3 + 4/5 — 4/7 + 4/9 — 4/11 ++- 

请 注意 ， 以 上 无 穷 级 数 的 分 子 保持 为 4， 而 分 母 则 每 次 递增 2， 并 且 对 每 一 项 的 操作 是 加 法 
和 减法 交替 出 现 。 

将 上 述 公 式 的 每 一 项 转换 为 函数 中 的 变量 ， 就 能 直接 对 该 无 穷 级 数 进行 建 模 。 分 子 可 以 是 常 
数 4。 分 母 可 以 是 从 1 开始 并 以 2 递增 的 变量 。 至 于 加 法 或 减法 操作 ， 可 以 表示 为 -1 或 1。 代码 
清单 1-19 中 ， 用 变量 pi 在 for 循环 过 程 中 保存 各 级 数 之 和 。 


代码 清单 1-19 calculating_pi.py 


def calculate pi(n_terms: int) -> float: 























numerator: float = 4.0 
denominator: float = 
operation: float = 1.0 
pi: float = 0.0 
for _ in range(n_terms): 
pi += operation * (numerator / denominator) 
denominator += 2.0 
operation *= -1.0 
return pi 
if name == "_ main 


print (calculate_pi(1000000) ) 

fem 在 大 多 数 平台 中 ，Python 的 float 类 型 是 64 位 的 浮 点 数 ( 或 C 语言 中 的 double ŽA ), 

在 建 模 或 仿真 某 个 有 趣 的 概念 时 , 公式 和 程序 代码 之 间作 生 搬 硬 套 式 的 直接 转换 是 一 种 简单 
而 高 效 的 方案 ， 以 上 函数 就 给 出 了 很 好 的 示例 。 直 接 转 换 是 一 种 有 用 的 工具 , 但 必须 时 刻 牢记 它 
不 一 定 是 最 有 效 的 解决 方案 。 其 实 ,zt 的 莱 布 尼 茨 公式 可 以 用 更 加 高 效 或 紧凑 的 代码 来 实现 。 

注意 无 穷 级 数 的 项 数 越 多 (调用 calculate_pi() 时 给 出 的 n_terms WERA) a 的 最 终 计 




















15 汉 诺 塔 


本 题 共 涉及 3 根 立柱 ( 以 下 称 为 “ 塔 ”), 不 妨 将 其 标 为 A、B 和 C。 塔 A 外 面 套 有 几 个 环形 
的 圆 盘 。 最 大 的 圆 盘 位 于 底部 ， 不 妨 将 其 称 为 圆 盘 1。 圆 盘 1 上 方 的 其 他 圆 盘 标记 为 不 断 增 大 的 
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数字 ， 圆 盘 尺 寸 则 不 断 减 小 。 假 定 要 移动 3 个 圆 盘 ， 最 大 也 是 底部 的 圆 盘 就 是 圆 盘 1。 第 二 大 的 
圆 盘 2 将 放 在 圆 盘 1 的 上 方 。 最 小 的 圆 盘 3 则 放 在 圆 盘 2 的 上 方 。 本 题 的 目标 是 按 以 下 规则 把 所 
有 圆 盘 从 塔 A 移动 到 塔 C: 

E 每 次 只 能 移动 一 个 圆 盘 ; 

E 只 有 塔 顶 的 圆 盘 才能 被 移动 ; 

E 绝 不 能 把 大 圆 盘 放 在 小 圆 盘 的 上 面 。 

图 1-7 对 本 题 给 出 了 总 体 说 明 。 
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A B C 
(起 始 位 置 ) 
图 1-7 本 题 的 挑战 是 把 3 个 圆 盘 从 塔 A 移 到 塔 C， 每 次 移动 一 个 圆 盘 ， 不 允许 把 大 圆 盘 压 在 小 圆 盘 之 上 























1.5.1 对 塔 进行 建 模 


栈 是 按照 后 进 先 出 〈LIFO ) 理念 建 模 的 数据 结构 。 最 后 入 栈 的 数据 项 会 最 先 出 栈 。 栈 的 两 
个 最 基本 操作 是 压 人 (push) 和 弹出 ( pop )。 压 入 操作 是 把 一 个 新 数据 项 放 入 栈 中 ， 而 弹出 操作 
则 是 移 除 并 返回 最 后 一 次 放 入 的 数据 项 。 在 Python 中 用 1ist 类 型 作为 底层 存储 ， 即 可 轻松 对 
栈 进行 建 模 。 上 具体 代码 如 代码 清单 1-20 所 示 。 


代码 清单 1-20 hanoi.py 


from typing import TypeVar, Generic, List 











T = TypeVar('T') 
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class Stack(Generic[T]): 
def init (self) -> None: 


self. container: List[T] = [] 


def push(self, item: T) -> None: 


self. container.append (item) 


def pop (self) -> T: 


return self. container.pop() 


def repr (self) -> str: 
return repr(self. container) 
注意 ”上述 Stack 类 实现 了 _ repr__() 方 法 ， 这 样 想 要 查看 某 个 塔 的 状况 就 比较 容易 了 。 对 
Stack 类 调用 print () 时 ， 输 出 的 就 是 repr O 的 结果 。 


注意 正如 本 书 引言 中 所 述 ， 本 书 通 篇 都 会 使 用 类 型 提示 。 从 typing 模块 导入 Generic， 就 能 
让 Stack 在 类 型 提示 时 泛 型 化 为 某 种 类 型 。T = TypeVar ('T') 定 义 了 任意 类 型 T。 TT 可 以 是 任 
何 类 型 。 后 续 在 求解 汉 诺 塔 问题 时 使 用 的 Stack， 就 用 到 了 类 型 提示 ， 类 型 提示 为 Stack[int] 
类 型 ， 表 示 T 应 该 填 入 int 类 型 的 数据 。 换 名 话说 ， 该 栈 是 一 个 整数 栈 。 如 果 对 类 型 提示 还 存在 
困惑 ， 不 妨 阅 读 一 下 附录 C。 

栈 是 汉 详 塔 的 完美 表现 。 要 把 圆 盘 放 到 塔 上 ， 可 以 进行 压 人 操作 。 要 把 圆 盘 从 一 个 塔 移 到 另 
一 个 塔 ， 就 可 以 先 从 第 一 个 塔 弹出 再 压 人 第 二 个 塔 上 。 

下 面 将 塔 定义 为 Stack， 并 把 圆 盘 码 放 在 第 一 个 塔 上 上， 具体 代码 如 代码 清单 1-21 所 示 。 

















代码 清单 1-21 hanoi.py ( 2 ) 


num_discs: int = 3 

tower a: Stack[int] = Stack() 
tower b: Stack[int] = Stack() 
tower C: Stack[int] = Stack() 


for i in range(1, num discs + 1): 


tower _a.push (i) 


1.5.2 求解 汉 诺 塔 问题 


汉 诺 塔 问题 该 如 何 求解 呢 ? 不 妨 想象 一 下 只 需 移动 一 个 圆 盘 的 情况 。 做 法 大 家 都 该 知道 吧 ! 
实际 上 , 移动 一 个 圆 盘 正 是 汉 诺 塔 递归 解决 方案 的 基线 条 件 。 需 要 递归 完成 的 是 移动 多 个 圆 盘 的 
情况 。 因 此 , 要 点 就 是 有 两 种 情况 需要 编写 代码 : 移动 一 个 圆 盘 ( 基线 条 件 ) 和 移动 多 个 圆 盘 ( 递 
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归 情 况 )。 

为 了 理解 需要 递归 完成 的 情况 ， 不 妨 看 一 个 具体 的 例子 。 假 设 塔 A 上 套 有 上 、 中 、 下 3 个 
圆 盘 , 这 3 个 圆 盘 最 终 都 要 被 移 到 塔 C 上去。 遍历 一 遍 全 过 程 或 许 有 助 于 把 问题 讲 清楚 。 首 先 可 
以 把 顶部 圆 盘 移 到 塔 C。 再 将 中 间 圆 盘 移 到 塔 B。 然 后 可 以 将 顶部 圆 盘 从 塔 C 移 到 塔 B。 现 在 底 
部 圆 盘 仍 在 塔 A， 上 面 的 两 个 圆 盘 则 在 塔 B。 现 在 已 大 致 成 功 将 两 个 圆 盘 从 一 个 塔 (A ) 移 到 了 
另 一 个 塔 (B )。 把 底部 圆 盘 从 A 移 到 C 其 实 就 是 基线 条 件 (移动 单个 圆 盘 )。 现 在 可 以 按照 从 A 
到 B 的 相同 步 又 把 两 个 上 面 的 圆 盘 从 B 移 到 C。 将 顶部 圆 盘 移 到 A, 将 中 间 圆 盘 移 到 C, 最 后 将 
顶部 圆 盘 从 A 移 到 C。 

提示 在 讲述 计算 机 科学 的 课堂 上 ， 常 常 可 以 见 到 用 木 柱 和 塑料 圈 制 作 的 塔 的 小 模型 。 大 家 可 以 用 

3 支 铅 笔 和 3 张 纸 制作 自己 的 模型 。 这 或 许 有 助 于 将 解决 方案 直观 地 呈现 出 来 。 

在 上 述 3 个 圆 盘 的 示例 中 , 包含 一 种 简单 的 移动 单个 圆 盘 的 基线 条 件 ， 以 及 一 种 移动 其 他 所 
AAA ( 这 里 为 两 个 ) 的 递归 情况 ,这 里 用 到 了 第 3 个 塔 作 为 暂 存 塔 。 递 归 的 情况 可 以 被 拆 分 为 
以 下 3 步 。 

(1) BEE xz-1 个 圆 盘 从 塔 A BARB (和 暂 存 塔 )， 用 塔 C 作为 中 转 塔 。 

(2 ) 将 底层 的 圆 盘 从 塔 A 移 到 塔 C。 

(3) 将 一 1 个 圆 盘 从 塔 B 移 到 塔 C， 用 塔 A 作为 中 转 塔 。 

令 人 惊奇 的 是 ,这 种 递归 算法 不 仅 适 用 于 3 个 圆 盘 的 情况 ,还 适用 于 任意 数量 的 圆 盘 。 下 面 
将 此 算法 编码 成 名 为 hanoi () 的 函数 ， 该 函数 负责 将 圆 盘 从 一 个 塔 移 到 另 一 个 塔 ， 参 数 中 给 出 
第 3 个 暂 存 塔 。 具 体 代 码 如 代码 清单 1-22 所 示 。 


代码 清单 1-22 hanoi.py ( 续 ) 


def hanoi (begin: Stack[int], end: Stack[int], temp: Stack[int], n: int) -> None: 














if n == 1: 
end. push (begin.pop () ) 

else: 
hanoi(begin, temp, end, n - 1) 
hanoi(begin, end, temp, 1) 


hanoi(temp, end, begin, n - 1) 
调用 hanoi () 完成 后 ， 应 该 检查 一 下 塔 A、B 和 C 的 内 容 ， 验 证 是 和 否 所 有 圆 盘 都 已 移动 成 
功 。 具 体 代 码 如 代码 清单 1-23 所 示 。 


代码 清单 1-23 hanoi.py ( 续 ) 


if name == "_main_" 


hanoi (tower a, tower_c, tower b, num discs) 
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print (tower a 


( ) 
print (tower_b) 
print (tower_c) 

我 们 会 发 现 应 该 已 经 成 功 了 。 在 为 汉 诺 塔 解法 编写 代码 时 , 不 一 定 非 要 对 将 多 个 圆 盘 从 塔 A 
移 到 塔 C 所 需 的 每 一 步 都 能 理解 。 但 逐渐 弄 懂 移动 任意 数量 圆 盘 的 通用 递归 算法 并 完成 编码 后 ， 
剩 下 的 工作 就 交 给 计算 机 去 完成 吧 。 这 就 是 构想 递归 解法 的 威力 :往往 可 以 用 抽象 方式 思考 解法 ， 
而 不 用 枯燥 地 在 脑子 里 把 每 一 步 都 搞定 。 

顺便 提 一 下 ， 随 着 圆 盘 数量 的 增加 ，hanoi () 函数 的 执行 次 数 将 会 呈 指 数 级 增加 ， 因 此 连 
64 个 圆 盘 的 解法 都 会 算 不 出 来 。 可 以 修改 一 下 num disc 变量 ， 多 试 几 个 不 同 的 圆 盘 数 。 随 着 
圆 盘 数 量 的 增加 ， 所 需 移 动 步 数 将 呈 指 数 级 增加 , 这 正 是 汉 诸 塔 的 传奇 之 处 。 关 于 汉 诺 塔 的 传说 
的 更 详细 信息 在 很 多 地 方 都 能 找到 。 读 者 若 有 兴趣 了 解 有 关 此 递归 解法 背后 的 数学 原理 ,可 参阅 
Carl Burch 在 “关于 汉 诺 塔 ”( About the Towers of Hanoi ) 中 的 解释 。 
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本 章 介绍 的 各 种 技术 ( 递归、 结果 缓存 、 压 缩 和 位 级 操作 ) 在 现代 软件 开发 过 程 中 是 很 常用 
的 ， 如果 没 有 它们 ,难以 想象 计算 的 世界 会 是 什么 样 的 ,虽然 没有 它们 也 能 解决 问题 , 但 用 这 些 
技术 解决 起 来 往往 逻辑 性 更 强 、 效 率 更 高 。 

递归 尤其 如 此 ， 它 不 仅 是 很 多 算法 的 核心 , 甚至 还 是 整个 编程 语言 的 核心 。 在 一 些 函数 式 编 
程 语 言 中 ， 如 Scheme 和 Haskell， 递 归 取代 了 命令 式 语 言 中 使 用 的 循环 。 但 是 ， 递 归 技 术 可 以 完 
成 的 任务 用 迭代 技术 也 能 实现 ， 这 一 点 值得 牢记 在 心 。 

结果 缓存 已 成 功 应 用 于 解析 器 (解释 型 语言 用 到 的 程序 ) 的 加 速 工 作 。 对 于 解决 有 可 能 再 次 
请 求 最 近 计算 结果 的 问题 , 结果 缓存 就 会 很 有 用 。 结果 缓存 的 男 一 个 应 用 就 是 程序 语言 的 运行 时 
(runtime )。 某 些 程序 语言 的 运行 时 ( 如 Prolog 的 多 个 版 本 ) 会 把 函数 调用 的 结果 自动 保存 下 来 
( 自动 化 结果 缓存 )， 这 样 下 次 发 起 相同 调用 时 就 不 需要 再 执行 这 些 函 数 了 。 这 种 机 制 类 似 于 
£ib6 () 中 的 修饰 符 @lru_cache () 。 

压缩 技术 已 经 让 饱 受 带宽 限制 的 互联 网 世界 变 得 流畅 多 了 。 对 于 现实 世界 中 取 值 范围 有 限 的 
简单 数据 类 型 ， 多 一 个 字 节 都 是 浪费 ， 于 是 在 1.2 节 中 检验 过 的 位 串 技术 就 十 分 有 用 了 。 不 过 大 
多 数 压 缩 算 法 都 是 通过 在 数据 集中 找到 某 些 模式 或 结构 ， 从 而 使 重复 信息 得 以 消除 。 它 们 比 1.2 
节 中 介绍 的 方案 要 复杂 得 多 。 

一 次 性 密码 本 对 于 普通 的 加 密 是 不 大 实用 的 。 为 了 重建 原始 数据 , 一 次 性 密码 本 方案 要 求 加 
密 程 序 和 解密 程序 同时 拥有 其 中 一 个 密 钥 (示例 中 为 假 数据 )， 这 很 麻烦 并 且 违 背 了 大 多 数 加 密 
方案 的 目标 (保持 密 钥 的 秘密 性 ), 但 是 大 家 可 以 了 解 一 下 ,“ 一 次 性 密码 本 ”这 个 名 称 来 自 间 谍 ， 
在 冷战 期 间 ， 他 们 使 用 真正 的 密码 纸 和 其 上 的 假 数据 来 创建 加 密 通 信 。 
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上 述 这 些 技术 是 编程 的 基本 构件 ,其 他 算法 是 构建 在 其 上 的 。 后 续 章 节 将 会 展示 关于 它们 的 

















17 习题 


1 用 自己 设计 的 技术 编写 其 他 一 种 求解 斐 波 那 契 序列 元 素 n 的 函数 。 请 编写 单元 测试 以 评 
佑 其 正确 性 ， 以 及 相对 于 本 章 各 版 本 的 性 能 差异 。 

2， 大 家 已 经 了 解 了 用 Python 中 的 简单 类 型 int 表示 位 串 的 做 法 。 请 编写 一 个 人 机 友好 的 
int 封装 类 ， 以 使 其 能 通用 地 当 作 位 序列 来 使 用 (使 其 可 迭代 并 实现 “getitem _() 
方法 )。 请 利用 该 int 封装 类 重新 实现 一 遍 CompressedGene, 

3， 编写 代码 求解 塔 数 任意 的 汉 诺 塔 问题 。 

4. 用 一 次 性 密码 本 方案 加 密 并 解密 图 像 。 









































第 2 重 搜索 问题 





“搜索 ”是 一 个 宏大 的 主题 ， 本 书 通 篇 都 可 被 称 为 “用 Python 解决 经 典 的 搜索 问题 ”。 本 
章 将 介绍 每 个 程序 员 都 应 该 知晓 的 核心 搜索 算法 。 别 看 标题 很 响亮 ， 但 本 章 内 容 其 实 称 不 上 
全 面 。 


2.1 DNA 搜索 


在 计算 机 软件 中 ， 基 因 通 常会 表示 为 字符 A、C、G 和 T 的 序列 。 每 个 字母 代表 一 种 核 普 酸 
(nucleotide )，3 个 核 苷 酸 的 组 合 称 作 密码 子 (codon )。 如 图 2-1 所 示 ， 密 码 子 的 编码 决定 了 氨基 
酸 的 种 类 ， 多 个 氨基 酸 一 起 形成 了 蛋白质 (protein )。 生 物 信息 学 软件 的 一 个 经 典 任务 就 是 在 基 
因 中 找到 某 个 特定 的 密码 子 。 




















1 个 密码 子 
1 个 核 背 酸 (3 个 核 撒 酸 ) 
me S 















































某 基因 片段 
图 2-1， 核 苷 酸 由 A、C、G 和 T 之 一 表示 。 密 码 子 由 3 个 核 苷 酸 组 成 ， 基 因由 多 个 密码 子 组 成 
































22 第 2 章 搜索 问题 


2.1.1 DNA 的 存储 方案 
核 并 酸 可 以 表示 为 包含 4 种 状态 的 简单 类 型 IntEnum， 如 代码 清单 2-1 所 示 。 


代码 清单 2-1 dna_search.py 


from enum import IntEnum 





from typing import Tuple, List 


Nucleotide: IntEnum = IntEnum('Nucleotide', ('A', 'C', 'G', 'T')) 














Nucleotide 的 类 型 是 IntEnum， 而 不 仅仅 是 Enum， 因 为 IntEnum“ 免 费 ” 提 供 了 比较 
运算 符 (<、>= 等 )。 为 了 使 要 实现 的 搜索 算法 能 完成 这 些 操作 ， 需 要 数据 类 型 支持 这 些 运算 符 。 
从 typing 包 中 导入 Tuple 和 List， 是 为 了 获得 类 型 提示 提供 的 支持 。 

如 代码 清单 2-2 所 示 ，Codon 可 以 定义 为 包含 3 个 Nucleotide 的 元 组 ，Gene 可 以 定义 
J Codon 的 列表 。 


代码 清单 2-2 dna_search.py ( 4 ) 
Codon = Tuple[Nucleotide, Nucleotide, Nucleotide] # type alias for codons 
Gene = List [Codon] # type alias for genes 
注意 尽管 稍 后 需要 对 Codon 进行 相互 比较 , 但 是 此 处 并 不 需要 为 Codon 定义 显 式 地 实现 了 “<” 
操作 符 的 自 定义 类 ， 这 是 因为 只 要 组 成 元 组 的 元 素 类 型 是 可 比较 的 ，Python 就 内 置 支持 元 组 的 比较 
操作 。 


互联 网 上 的 基因 数据 通常 都 是 以 文件 格式 提供 的 , 其 中 包含 了 代表 基因 序列 中 所 有 核 背 酸 的 
超 长 字符 串 。 下 面 将 为 某 个 虚构 的 基因 定义 这 样 一 个 字符 串 ,， 并 将 其 命名 为 gene_str, 具体 代 
码 如 代码 清单 2-3 所 示 。 


代码 清单 2-3 dna_search.py ( 续 ) 


gene str: str = "ACGTGGCTCTCTAACGTACGTACGTACGGGGTTTATATATACCCTAGGACTCCCTTT" 


这 里 还 需要 一 个 实用 函数 把 str 转换 为 Gene。 具 体 代码 如 代码 清单 2-4 所 示 。 











代码 清单 2-4 dna_search.py ( #& ) 


def string to gene(s: str) -> Gene: 
gene: Gene = [] 
for i in range(0, len(s), 3): 


if (i + 2) >= len(s): # don't run off end! 
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return gene 
# initialize codon out of three nucleotides 
codon: Codon = (Nucleotide[s[i]], Nucleotide[s[i + 1]], Nucleotide[s[i + 2]]) 
gene.append (codon) # add codon to gene 


return gene 





string_to_gene () 遍历 给 定 的 str, 把 每 3 个 字符 转换 为 Codqon ， 并 将 其 追加 到 新 建 的 
Gene 的 末尾 。 如 果 该 函数 发 现 从 正在 读 取 的 s 的 当前 位 置 开始 不 够 放下 两 个 Nucleotide 的 
位 置 (参见 循环 中 的 if 语句 )， 就 说 明 已 经 到 达 不 完整 基因 的 末尾 了 ， 于 是 最 后 一 个 或 两 个 核 
苷 酸 就 会 被 跳 过 。 

string to _gene () 可 用 于 把 str 类 型 的 gene_str 转换 为 Gene。 有 具体 代码 如 代码 清 
单 2-5 所 示 。 








代码 清单 2-5 dna_search.py ( 续 ) 





my gene: Gene = string to_gene(gene_ str) 


2.1.2 ”线性 搜索 


基因 需要 执行 的 一 项 基本 操作 就 是 搜索 指定 的 密码 子 , 目标 就 是 简单 地 查找 该 密码 子 是 否 存 
在 于 基因 中 。 

线性 搜索 (linear search ) 算法 将 按照 原始 数据 结构 的 顺序 遍历 搜索 空间 (search space ) 中 的 
每 个 元 素 ， 直 到 找到 搜索 内 容 或 到 达 数 据 结 构 的 末尾 。 其 实 对 搜索 而 言 ， 线 性 搜索 是 最 简单 、 最 
自然 、 最 显而易见 的 方式 。 在 最 坏 的 情况 下 ,线性 搜索 将 需要 遍历 数据 结构 中 的 每 个 元 素 ， 因 此 
它 的 复杂 度 为 On), P 是 数据 结构 中 元 素 的 数量 ， 如 图 2-2 所 示 。 


开始 位 置 最 坏 情况 
A. 





搜索 步骤 |1 lo l3 l4 ts le 7 la lo Hoin 








图 2-2 在 最 坏 情况 下 ， 线 性 搜索 将 需要 遍历 数组 的 每 个 元 素 

线性 搜索 函数 的 定义 非常 简单 。 它 只 需要 遍历 数据 结构 中 的 每 个 元 素 , 并 检查 每 个 元 素 是 否 
与 所 查找 的 数据 相等 。 代 码 清单 2-6 所 示 的 代码 就 对 Gene 和 Codon 定义 了 这 样 一 个 函数 ， 然 
ax} my_gene 和 名 为 acg 和 gat 的 Codon 对 象 调用 这 个 函数 。 


代码 清单 2-6 dna_search.py ( 续 ) 





def linear contains (gene: Gene, key codon: Codon) -> bool: 


for codon in gene: 
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if codon == key codon: 
return True 


return False 


acg: Codon = (Nucleotide.A, Nucleotide.C, Nucleotide.G) 
gat: Codon = (Nucleotide.G, Nucleotide.A, Nucleotide.T) 
print (linear contains (my gene, acg)) # True 


print (linear contains (my gene, gat) ) # False 














注意 ”上述 函数 仅 供 演示 。 了 Python 内 置 的 序列 类 型 (list, tuple, range) 都 已 实现 了 
_ contains _() 方 法 , 这 样 就 能 简单 地 用 in 操作 符 在 其 中 搜索 某 个 指定 的 数据 项 。 实 际 上 ，imn 
运算 符 可 以 与 任何 已 实现 contains_ _() 方 法 的 类 型 一 起 使 用 。 例如 ， 执 行 print (acg in 
my_gene) 语句 即 可 在 my_gene 中 搜索 acg 并 打印 出 结果 。 











2.1.3 ”二 分 搜索 


有 一 种 搜索 方法 比 查 看 每 个 元 素 速度 快 , 但 需要 提前 了 解数 据 结构 的 顺序 。 如 果 我 们 知道 某 
数据 结构 已 经 排 过 序 , 并 且 可 以 通过 数据 项 的 索引 直接 访问 其 中 的 每 一 个 数据 项 , 就 可 以 执行 二 
分 搜索 (binary search )。 根 据 这 一 标准 ， 已 排序 的 Python List 是 二 分 搜索 的 理想 对 象 。 

二 分 搜索 的 原理 如 下 : 查看 一 定 范 围 内 有 序 元 素 的 中 间 位 置 的 元 素 , 将 其 与 所 查找 的 元 素 进 
行 比 较 ， 根 据 比 较 结 果 将 搜索 范围 缩小 一 半 ， 然 后 重复 上 述 过 程 。 下 面 看 一 个 具体 的 例子 。 

假定 有 一 个 按 字 母 顺序 排列 的 单词 List ， 类 似 于 ["cat"， "dog", "kangaroo", 
"llama", "rabbit", "rat", "zebra"] ， 要 查找 的 单词 是 “rat”。 

C1) 可 以 确定 在 这 7 个 单词 的 列表 中 ， 中 间 位 置 的 元 素 为 “llama”。 

(2) 可 以 确定 按 字母 顺序 “rat” 将 排 在 “llama” 之 后 ， 因 此 它 一 定位 于 “llama” 之 后 的 一 
Æ (近似 ) 列表 中 。( 如 果 在 本 步 中 已 经 找到 “rat”， 就 应 该 返回 它 的 位 置 ; 如 果 发 现 所 查找 的 单 
词 排 在 当前 的 中 间 单 词 之 前 ， 就 可 以 确信 它 位 于 “llama” 之 前 的 一 半 列 表 中 。) 

(3) 可 以 对 “rat” 有 可 能 存在 其 中 的 半 个 列表 再 次 执行 第 1 步 和 第 2 步 。 这 半 个 列表 事实 上 
就 成 了 新 的 目标 列表 。 这 些 步 又 会 持续 执行 下 去 ,直至 找到 “rat” 或 者 当前 搜索 范围 中 不 再 包含 
待 查找 的 元 素 ( 意味 着 该 单词 列表 中 不 存在 “rat”)。 












































图 2-3 展示 了 二 分 搜索 的 过 程 。 请 注意 ， 与 线性 搜索 不 同 ， 它 不 需要 搜索 每 个 元 素 。 
最 坏 情况 。 开始 位 置 








R] 








2-3 ”最 坏 情况 下 ， 二 分 搜索 仅 会 遍历 lg(n) 个 列表 元 素 
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二 分 搜索 将 搜索 空间 不 停 地 减 半 , 因此 它 的 最 坏 情况 运行 时 间 为 Olg n) 但 是 这 里 还 有 个 排 
序 问 题 。 与 线性 搜索 不 同 , 二 分 搜索 需要 对 有 序 的 数据 结构 才能 进行 搜索 , 而 排序 是 需要 时 间 的 。 
实际 上 , 最 好 的 排序 算法 也 需要 O(n lg n) 的 时 间 才 能 完成 。 如 果 我 们 只 打算 运行 一 次 搜索 , 并且 
原 数据 结构 未 经 排序 , 那么 可 能 进行 线性 搜索 就 比较 合理 。 但 如 果 要 进行 多 次 搜索 , 那么 用 于 排 
序 所 付出 的 时 间 成 本 就 是 值得 的 ， 获 得 的 收益 来 自 每 次 搜索 大 幅 减少 的 时 间 成 本 。 

为 基因 和 密码 子 编写 二 分 搜索 函数 ， 与 为 其 他 类 型 的 数据 编写 搜索 函数 没什么 区 别 ， 因 为 
同 为 Codon 类 型 的 数据 可 以 相互 比较 ,而 Gene 类 型 只 不 过 是 一 个 List。 具 体 代码 如 代码 清 
单 2-7 所 示 。 
































代码 清单 2-7 dna_search.py ( 续 ) 





def binary contains(gene: Gene, key codon: Codon) -> bool: 


low: int = 0 
high: int = len(gene) - 1 
while low <= high: # while there is still a search space 
mid: int = (low + high) // 2 
if gene[mid] < key codon: 
low = mid + 1 
elif gene[mid] > key codon: 
high = mid - 1 
else: 
return True 


return False 





下 面 就 逐 行 过 一 过 这 个 函数 。 

low: int = 0 

high: int = len(gene) - 1 

首先 看 一 下 包含 整个 列表 (gene) 的 范围 。 

while low <= high: 

只 要 还 有 可 供 搜索 的 列表 范围 ， 搜 索 就 会 持续 下 去 。 当 low 大 于 high 时 ， 意 味 着 列表 中 
不 再 包含 需要 查看 的 槽 位 ( slot ) To 

mid: int = (low + high) // 2 

我 们 用 整除 法 和 在 小 学 就 学 过 的 简单 均值 公式 计算 中 间 位 置 mide 

if gene[mid] < key codon: 

low = mid + 1 
如 果 要 查找 的 元 素 大 于 当前 搜索 范围 的 中 间 位 置 元 素 , RIEF UR BR 
的 范围 ， 方 法 是 将 low 移 到 当前 中 间 位 置 元 素 后 面 的 位 置 。 下 面 是 把 下 一 次 迭代 的 搜索 范围 减 
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半 的 代码 。 
elif gene[mid] > key codon: 
high = mid - 1 


类 似 地 ， 如 果 要 查找 的 元 素 小 于 中 间 位 置 元 素 之 前 ， 就 将 当前 搜索 范围 反 向 减 半 。 


else: 








return True 
如 果 当 前 查找 的 元 素 既 不 小 于 也 不 大 于 中 间 位 置 元 素 ， 就 表示 它 就 是 要 找 的 元 素 ! 当然 ， 如 
果 循 环 迭 代 完 毕 ， 就 会 返回 False， 以 表明 没有 找到 ， 这 里 就 不 重 现代 码 了 。 
下 面 可 以 尝试 用 同一 份 基因 数据 和 密码 子 运行 函数 了 , 但 必须 记得 先进 行 排序 。 具 体 代码 如 
代码 清单 2-8 所 示 。 





代码 清单 2-8 dna_search.py ( 续 ) 





my sorted_gene: Gene = sorted(my_gene) 
print (binary contains (my sorted gene, acg)) # True 


print (binary contains (my sorted_gene, gat) ) # False 


提示 “可 以 用 Python 标准 库 中 的 bisect 模块 构建 高 性 能 的 二 分 搜索 方案 。 








2.1.4 通用 示例 

函数 linear contains() 和 binary contains() 可 以 广泛 应 用 于 几乎 所 有 Python 序 
列 。 以 下 通用 版 本 与 之 前 的 版 本 几乎 完全 相同 ， 只 不 过 有 一 些 名 称 和 类 型 提示 信息 有 一 些 变化 。 
具体 代码 如 代码 清单 2-9 所 示 。 


注意 代码 清单 2-9 中 有 很 多 导入 的 类 型 。 本 章 后 续 有 很 多 通用 搜索 算法 都 将 复 用 generic_search.py 
文件 ， 这 样 就 可 以 避免 导入 的 麻烦 。 








注意 ”在 往 下 继续 之 前 ， 需 要 用 pip install typing extensions 或 pip3 install 
typing extensions 安装 typing extensions 模块 ， 具 体 命 令 取 决 于 Python 解释 器 的 配置 
方式 。 这 里 需要 通过 该 模块 获得 Protocol 类 型 ，Python 后 续 版 本 的 标准 库 中 将 会 包含 这 个 类 型 (PEP 
544 已 有 明确 说 明 )。 因 此 在 Python 的 后 续 版 本 中 ， 应 该 不 需要 再 导入 typing_extensions 模块 了 ， 
并 且 会 用 from typing import Protocol 替换 from typing extensions import Protocol, 


代码 清单 2-9 generic_search.py 


from future import annotations 




















from typing import TypeVar, Iterable, Sequence, Generic, List, Callable, Set, Deque, 
Dict, Any, Optional 
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from typing extensions import Protocol 


from heapq import heappush, heappop 


Ae = 


def 


C= 


TypeVar ('T') 


linear _contains(iterable: Iterable[T], key: T) -> bool: 
for item in iterable: 
if item == key: 
return True 


return False 


TypeVar("C", bound="Comparable") 


class Comparable (Protocol): 


def 


def eq (self, other: Any) -> bool: 


def 1t (self: C, other: C) -> bool: 


def gt (self: C, other: C) -> bool: 


return (not self < other) and self != other 


def le (self: C, other: C) -> bool: 


return self < other or self == other 











def ge (self: C, other: C) -> bool: 


return not self < other 





binary contains (sequence: Sequence[C], key: C) -> bool: 
low: int = 0 
high: int = len(sequence) - 1 
while low <= high: # while there is still a search space 
mid: int = (low + high) // 2 
if sequence[mid] < key: 
low = mid + 1 
elif sequence[mid] > key: 
high = mid - 1 
else: 
return True 


return False 


if name == "_main_": 


print (linear -contains [le 5, 15, 15, 15, 15, 20], 5)) # True 


print (binary _contains(["a", "d", "e", "£f", "z"], "£")) # True 
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print (binary_contains ([" John"， "mark", "ronald", "sarah"], "sheila") ) # False 


现在 可 以 尝试 搜索 其 他 类 型 的 数据 了 。 这 些 函 数 几 乎 可 以 复 用 于 任何 Python 集合 类 型 。 这 
正 是 编写 通用 代码 的 威力 。 上 述 例 子 中 唯一 的 遗憾 之 处 就 是 为 了 满足 Python 类 型 提示 的 要 求 ， 必 须 
以 Comparable 类 的 形式 实现 。Comparable 是 一 种 实现 比较 操作 符 (<、> = 等 ) 的 类 型 。 在 后 续 
的 Python 版 本 中 ， 应 该 有 一 种 更 简洁 的 方式 来 为 实现 这 些 常 见 操作 符 的 类 型 创建 类 型 提示 。 




















2.2 求解 迷宫 问题 


寻找 穿 过 迷宫 的 路 径 类 似 于 计算 机 科学 中 的 很 多 常见 搜索 问题 , 那么 不 妨 直观 地 用 查找 迷宫 
路 径 来 演示 广度 优先 搜索 、 深 度 优先 搜索 和 A* 算 法 吧 。 

此 处 的 迷宫 将 是 由 Cell 组 成 的 二 维 网 格 。Cell 是 一 个 包含 str 值 的 枚 举 ， 其 中 " "表示 
空白 单元 格 ，"X" 表 示 路 障 单元 格 。 还 有 其 他 一 些 在 打印 输出 迷宫 时 供 演示 用 的 单元 格 。 具 体 代 
码 如 代码 清单 2-10 所 示 。 


代码 清单 2-10 maze.py 


from enum import Enum 

from typing import List, NamedTuple, Callable, Optional 
import random 

from math import sqrt 


from generic search import dfs, bfs, node to path, astar, Node 


class Cell(str, Enum): 


EMPTY =" " 
BLOCKED = "X" 
START. = "S" 
GOAL = "G" 
PATH = "x" 


这 里 再 次 用 到 了 很 多 导入 操作 。 注 意 ,最 后 一 个 导入 (from generic_search ) AJLA 
还 未 定义 的 标识 符 ， 此 处 是 为 了 方便 才 包 含 进来 的 ， 但 在 用 到 之 前 可 以 先 把 它们 注释 掉 。 

还 需要 有 一 种 表示 迷宫 中 各 个 位 置 的 方法 ， 只 要 用 NamedTuple 即 可 实现 ， 其 属性 表示 当 
前 位 置 的 行 和 列 。 具 体 代码 如 代码 清单 2-11 所 示 。 








代码 清单 2-11 maze.py ( 续 ) 


class MazeLocation (NamedTuple): 
row: int 


column: int 
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2.2.1 生成 一 个 随机 迷宫 


Maze 类 将 在 内 部 记录 一 个 表示 其 状态 的 网 格 (列表 的 列表 )。 还 有 表示 行 数 、 列 数 、 起 始 位 
置 和 目标 位 置 的 实例 变量 ， 该 网 格 将 被 随机 填 人 一 些 路 障 单元 格 。 

这 里 生成 的 迷宫 应 该 相当 地 稀 玖 , 以 便 从 给 定 的 起 始 位 置 到 给 定 的 目标 位 置 的 路 径 几 乎 总 是 
存在 (毕竟 这 里 只 是 为 了 测试 算法 )。 实 际 的 稀 玻 度 将 由 迷宫 的 调用 者 决定 ， 但 这 里 将 给 出 默认 
HIRREN 20% 的 路 障 。 如 果 某 个 随机 数 超过 了 当前 sparseness 参数 给 出 的 阔 值 ， 就 会 简单 
地 用 路 障 单元 格 替 换 空 单元 格 。 如 果 对 迷宫 中 的 每 个 位 置 都 执行 上 述 操作 ， 那 么 从 统计 学 上 说 ， 
整个 迷宫 的 稀疏 度 将 近似 于 给 定 的 sparseness 参数 。 具 体 代码 如 代码 清单 2-12 所 示 。 


代码 清单 2-12 maze.py ( 续 ) 


class Maze: 

















def init (self, rows: int = 10, columns: int = 10, sparseness: float = 0.2, start: 
MazeLocation = MazeLocation(0, 0), goal: MazeLocation = MazeLocation(9, 9)) -> None: 
# initialize basic instance variables 
self. rows: int = rows 
self. columns: int = columns 
self.start: MazeLocation = start 
self.goal: MazeLocation = goal 
# fill the grid with empty cells 
self. grid: List[List[Cell]] = [[Cell.EMPTY for c in range(columns) ] 
for r in range(rows) ] 
# populate the grid with blocked cells 
self. randomly fill(rows, columns, sparseness) 
# fill the start and goal locations in 
self. grid[start.row] [start.column] = Cell.START 
self. grid[goal.row] [goal.column] = Cell.GOAL 


def randomly fill(self, rows: int, columns: int, sparseness: float): 
for row in range(rows): 
for column in range(columns): 
if random.uniform(0, 1.0) < sparseness: 
self. grid[row] [column] = Cell.BLOCKED 


现在 我 人 有 了 迷宫 ,还 需要 一 种 把 它 简 洁 地 打印 到 控制 台 的 方法 ,输出 的 字符 应 该 靠 得 很 近 ， 
以 便 使 该 迷宫 看 起 来 像 一 个 真实 的 迷宫 。 具 体 代 码 如 代码 清单 2-13 所 示 。 


代码 清单 2-13 maze.py ( 续 ) 





# return a nicely formatted version of the maze for printing 
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def str (self) -> str: 
output: str = mi 
for row in self. grid: 
output += "".join([c.value for c in row]) + "\n" 


return output 
然后 测试 一 下 上 述 这 些 迷 宫 函 数 。 


maze: Maze = Maze() 


print (maze) 


2.2.2 ”迷宫 的 其 他 函数 


若 有 一 个 函数 可 在 搜索 过 程 中 检查 我 们 是 否 已 抵达 目标 ,将 会 便利 很 多 。 换 句 话 说 ,我 们 需 
要 检查 搜索 已 到 达 的 某 个 MazeLocation 是 否 就 是 目标 位 置 ,于 是 可 以 为 Maze 添加 一 个 方法 。 
具体 代码 如 代码 清单 2-14 所 示 。 


代码 清单 2-14 maze.py ( 续 ) 


def goal _test(self, ml: MazeLocation) -> bool: 





return ml == self.goal 
怎样 才能 在 迷宫 内 移动 呢 ? ee 
格 。 根 据 此 规则 ，successors () 函数 可 以 从 给 定 的 MazeLocation 找到 可 能 到 达 的 下 一 个 位 
Ho BÆ, A Maze 的 successors () 函数 都 会 有 所 差别 ， 因 为 每 个 Maze 都 有 不 同 的 尺寸 
和 路 障 集 。 因 此 ， 代 码 清单 2-15 中 把 successors () 函数 定义 为 Maze 的 方法 。 





代码 清单 2-15 maze.py ( 续 





def successors (self, ml: MazeLocation) -> List[MazeLocation] : 
locations: List[MazeLocation] = [] 
if ml.row + 1 < self. rows and self. grid[ml.row + 1] [ml.column] != Cell.BLOCKED: 


locations .append (MazeLocation(ml.row + 1, ml.column) ) 


if ml.row - 1 >= 0 and self. grid[ml.row - 1][ml.column] != Cell.BLOCKED: 
locations.append(MazeLocation(ml.row - 1, ml.column) ) 
if ml.column + 1 < self. columns and self. grid[ml.row] [ml.column + 1] != Cell.BLOCKED: 


locations.append (MazeLocation(ml.row, ml.column + 1)) 


if ml.column - 1 >= 0 and self. grid[ml.row] [ml.column - 1] != Cell.BLOCKED: 




















locations.append(MazeLocation(ml.row, ml.column - 1)) 


return locations 


successors () 只 是 简单 地 检查 Maze HA MazeLocation 的 上 方 、 下 方 、 右 侧 和 左 侧 ， 
看 是 否 能 找到 从 该 位 置 过 去 的 空白 单元 格 。 它 还 会 避 开 检查 Maze 边缘 之 外 的 位 置 。 Be 
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可 达 MazeLocation 都 会 被 放 入 一 个 列表 ， 该 列表 将 被 最 终 返 回 给 调用 者 。 


2.2.3 深度 优先 搜索 


深度 优先 搜索 (depth-first search, DFS ) 正如 其 名 ， 搜 索 会 尽 可 能 地 深入 ， 如 果 碰 到 障碍 就 
会 回溯 到 最 后 一 次 的 决策 位 置 。 下 面 将 实现 一 个 通用 的 深度 优先 搜索 算法 , 它 可 以 求解 上 述 迷 富 
问题 ， 还 可 以 给 其 他 问题 复 用 。 图 2-4 演示 了 迷宫 中 正在 进行 的 深度 优先 搜索 。 
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图 2-4 ”在 深度 优先 搜索 中 ， 搜 索 沿 着 不 断 深入 的 路 径 前 进 ， 直 至 遇 到 障碍 并 必须 回溯 到 最 后 的 决策 位 置 





1. 栈 

深度 优先 搜索 算法 依赖 栈 这 种 数据 结构 。( 如 果 你 已 读 过 了 第 1 章 中 有 关 栈 的 内 容 ， 完 全 可 
以 跳 过 本 小 节 的 内 容 。) 栈 是 一 种 按照 后 进 先 出 (LIFO ) 原则 操作 的 数据 结构 。 不 妨 想象 一 委 纸 ， 
顶部 的 最 后 一 张 纸 是 从 栈 中 取出 的 第 一 张 纸 。 通常 , 栈 可 以 基于 更 简单 的 数据 结构 ( 如 列表 ) 来 
实现 。 这 里 的 栈 将 基于 Python 的 List 类 型 来 实现 。 

栈 一 般 至 少 应 包含 两 种 操作 : 

加 push () 一 一 在 栈 顶 部 放 入 一 个 数据 项 ; 

E pop () 一 一 移 除 栈 顶 部 的 数据 项 并 将 其 返回 。 
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下 面 将 实现 这 两 个 操作 ， 以 及 用 于 检查 栈 中 是 否 还 存在 数据 项 的 empty 属性 ， 具 体 代 码 如 
代码 清单 2-16 所 示 。 这 些 关于 栈 的 代码 将 会 被 添加 到 本 章 之 前 用 过 的 generic_search.py 文件 中 。 
现在 我 们 已 经 完成 了 所 有 必要 的 导入 。 





代码 清单 2-16 generic_search.py ( 续 ) 


class Stack(Generic[T]): 
def init (self) -> None: 


self. container: List[T] = [] 


@property 
def empty(self) -> bool: 


return not self. container # not is true for empty container 


def push(self, item: T) -> None: 


self. container.append (item) 


def pop (self) -> T: 


return self. container.pop() # LIFO 


def repr (self) -> str: 
return repr (self. container) 
用 Python 的 List 实现 栈 十 分 地 简单 ， 只 需 一 直 在 其 右 端 添加 数据 项 ， 并 且 始 终 从 其 最 右 
端 移 除数 据 项 。 如 果 List 中 不 再 包含 任何 数据 项 , 则 List 的 pop () 方 法 将 会 调用 失败 。 因 此 
如 果 Stack HF, M Stack 的 pop () 方 法 同样 也 会 失败 。 





2. DFS 算法 


在 开始 实现 DFS 算法 之 前 ， 还 需要 来 点 儿 花 妹 。 这 里 需要 一 个 Node 类 ， 用 于 在 搜索 时 记 
录 从 一 种 状态 到 另 一 种 状态 〈 或 从 一 个 位 置 到 另 一 个 位 置 ) 的 过 程 。 不 妨 把 Node 视 为 对 状态 的 
封装 。 在 求解 迷宫 问题 时 , 这 些 状态 就 是 MazeLocation 类 型 。Node 将 被 称 作 来 自 其 parent 
的 状态 。Node 类 还 会 包含 cost 和 heuristic 属性 ， 并 实现 了 1t _ OWE, AIM AE 
A* 算 法 中 能 够 得 以 复 用 。 具 体 代码 如 代码 清单 2-17 所 示 。 


代码 清单 2-17 generic_search.py ( 2& ) 





class Node (Generic[T]): 
def init (self, state: T, parent: Optional[Node], cost: float = 0.0, heuristic: 
float = 0.0) -> None: 
self.state: T = state 
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self.parent: Optional[Node] = parent 
self.cost: float = cost 


self.heuristic: float = heuristic 


def lt (self, other: Node) -> bool: 


return (self.cost + self.heuristic) < (other.cost + other.heuristic) 


fem Optional 类 型 表示 ， 参 数 化 类 型 的 值 可 以 被 变量 引用 ， 或 变量 可 以 引用 None, 

















提示 “在 文件 顶部 ，from future import annotations 允许 Node 在 其 方法 的 类 型 提 
示 中 引用 自身 。 若 没有 这 名 话 ， 就 需要 把 类 型 提示 放 入 引号 作为 字符 串 来 使 用 (如 'Node ' )。 在 以 
后 的 Python 的 版 本 中 ， 将 不 必 导 入 annotations 了 。 要 获得 更 多 信息 ， 请 参阅 PEP 563“ 注 释 的 
RFE” (Postponed Evaluation of Annotations )。 














ay 

















度 优 先 搜索 过 程 中 需要 记录 两 种 数据 结构 : 当前 要 搜索 的 状态 栈 ( 或“ 位置” )， 这 
oe frontier; 已 搜索 的 状态 集 ， 这 里 名 为 explored。 只 要 在 frontier NAAR 
态 需 要 访问 ，DFS 就 将 持续 检查 该 状态 是 否 达到 目标 ( 如 果 某 个 状态 已 达到 目标 ， 则 DFS 
将 停止 运行 并 将 其 返回 ) 并 把 将 要 访问 的 状态 添加 到 frontier 中 。 它 还 会 把 已 搜索 的 每 个 状 
态 都 打上 标记 explored， 使 得 搜索 不 会 陷入 原 地 循环 ， 不 会 再 回 到 先前 已 访问 的 状态 。 如 果 
frontier 为 空 ， 则 意味 着 没有 要 搜索 的 地 方 了 。 具 体 代码 如 代码 清单 2-18 所 示 。 

















代码 清单 2-18 generic_search.py ( 续 ) 





def dfs(initial: T, goal_test: Callable[[T], bool], successors: Callable[[T], List[T]]) 
-> Optional [Node[T]]: 
# frontier is where we've yet to go 
frontier: Stack[Node[T]] = Stack() 
frontier.push (Node (initial, None) ) 
# explored is where we've been 


explored: Set[T] = {initial} 


# keep going while there is more to explore 
while not frontier.empty: 
current node: Node[T] = frontier.pop() 
current state: T = current_node.state 
# if we found the goal, we're done 
if goal_test(current_state): 
return current node 
# check where we can go next and haven't explored 
for child in successors (current state): 


if child in explored: # skip children we already explored 
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Continue 
explored.add (child) 
frontier.push (Node (child, current_node) ) 


return None # went through everything and never found goal 


WER dfs () 执行 成 功 ， 则 返回 封装 了 目标 状态 的 Node. MIZ Node 开始 , 利用 parent 属 
性 向 前 遍历 ， 即 可 重 现 由 起 点 到 目标 点 的 路 径 。 有 具体 代码 如 代码 清单 2-19 所 示 。 





代码 清单 2-19 generic_search.py ( 续 ) 





def node _to_path(node:Node[T]) -> List[T]: 
path: List[T] = [node.state] 
# work backwards from end to front 
while node.parent is not None: 
node = node.parent 
path.append (node.state) 
path. reverse () 


return path 


为 了 便于 显示 ， 如 果 在 迷宫 上 标 上 搜索 成 功 的 路 径 、 起 点 状态 和 目标 状态 ， 就 很 有 意义 了 。 
若 能 移 除 一 条 路 径 以 便 对 同一 个 迷宫 尝试 不 同 的 搜索 算法 ， 也 是 很 有 意义 的 事情 。 因 此 应 该 在 
maze.py 的 Maze 类 中 添加 代码 清单 2-20 所 示 的 两 个 方法 。 


代码 清单 2-20 maze.py ( 续 ) 


def mark(self, path: List[MazeLocation]): 


for maze location in path: 


self. grid[maze_ location.row] [maze _location.column] = Cell.PATH 
self. grid[self.start.row] [self.start.column] = Cell.START 
self. grid[self.goal.row] [self.goal.column] = Cell.GOAL 


def clear(self, path: List[MazeLocation]): 


for maze location in path: 


self. grid[maze_location.row] [maze _location.column] = Cell.EMPTY 
self. grid[self.start.row] [self.start.column] = Cell.START 
self. grid[self.goal.row] [self.goal.column] = Cell.GOAL 


本 节 内 容 有 点 多 了 ， 现 在 终于 可 以 求解 迷宫 了 。 具 体 代码 如 代码 清单 2-21 所 示 。 


代码 清单 2-21 maze.py ( 续 ) 


if name == "_main_": 
# Test DFS 


m: Maze = Maze() 
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print (m) 
solutionl: Optional [Node [MazeLocation]] = dfs(m.start, m.goal_test, m.successors) 
if solutionl is None: 
print ("No solution found using depth-first search!") 
else: 
pathl: List[MazeLocation] = node_to_path(solution1) 
m.mark (path1) 
print (m) 


m.clear (path1) 


成 功 的 解 将 类 似 于 如 下 形式 : 
S****X X 
XK 大 大 大 大 大 

X* 


XX*KKAKKKX 


*G 


星 号 代表 深度 优先 搜索 函数 找到 的 路 径 ， 从 超 点 至 目标 点 。 请 记 住 ， 因 为 每 一 个 迷宫 都 是 随 
机 生成 的 ， 所 以 并 非 每 个 迷宫 都 有 解 。 








2.2.4 广度 优先 搜索 


或 许 大 家 会 注意 到 ， 用 深度 优先 遍历 找到 的 迷宫 路 径 似 乎 有 点 儿 不 尽 如 人 意 ， 通常 它们 不 
是 最 短路 径 。 广 度 优先 搜索 (breadth-first search, BFS ) 则 总 是 会 查找 最 短路 径 ， 它 从 起 始 状 
态 开 始 由 近 到 远 ， 在 搜索 时 的 每 次 迭代 中 依次 查找 每 一 层 节 点 。 针 对 某 些 问题 ,深度 优先 搜索 
可 能 会 比 广度 优先 搜索 更 快 找到 解 ， 反 之 亦 然 。 因 此 ， 要 在 两 者 之 间 进 行 选择 ， 有 时 就 是 在 可 
能 快速 求解 与 确定 找到 最 短路 径 ( 如果 存 在 ) 之 间 做 出 权衡 。 图 2-5 演示 了 迷宫 中 正在 进行 的 
广度 优先 搜索 。 

深度 优先 搜索 有 时 会 比 广度 优先 搜索 更 快 地 返回 结果 , 要 想 理解 其 中 的 原因 ,不妨 想象 一 下 
在 洋 黎 的 一 层 皮 上 寻找 标记 。 采 用 深度 优先 策略 的 搜索 者 可 以 把 小 刀 插 入 洋 黎 的 中 心 并 随意 检查 
切 出 的 块 。 如 果 标 记 所 在 的 层 刚 好 邻近 切 出 的 块 , 那么 就 有 可 能 比 采 用 广度 优先 策略 的 搜索 者 更 
快 地 找到 它 ， 广 度 优先 策略 的 搜索 者 会 费劲 地 每 次 “ 剥 一 层 洋葱 皮 ”。 

为 了 更 好 地 理解 为 什么 广度 优先 搜索 始终 都 会 找 出 最 短路 径 〈 如 果 存 在 的 话 )， 可 以 考虑 一 下 
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要 找到 波士顿 和 纽约 之 间 停 靠 车 站 数 最 少 的 火车 路 径 。 如 果 不 断 朝 同一 个 方向 前 进 并 在 遇 到 死路 时 
进行 回溯 ( 如 同 深度 优先 搜索 )， 就 有 可 能 在 回 到 纽约 之 前 先 找到 一 条 通 往 西雅图 的 路 线 。 但 在 广 
度 优先 搜索 时 ,首先 会 检查 距离 波士顿 1 站 路 的 所 有 车 站 ,然后 检查 距离 波士顿 2 站 路 的 所 有 车 站 ， 
再 检查 距离 波士顿 3 站 路 的 所 有 车 站 , 一 直 持 续 至 找到 纽约 为 止 。 因 此 在 找到 纽约 时 , 就 能 知道 已 


找到 了 车 站 数 最 少 的 路 线 ， 因 为 离 波士顿 较 近 的 所 有 车 站 都 已 经 查看 过 了 ， 且 其 中 没有 纽约 。 























图 2-5 在 广度 优先 搜索 过 程 中 ， 离 起 点 位 置 最 近 的 元 素 最 先 被 搜索 


1. 队列 


实现 BES 需要 用 到 名 为 队列 ( queue ) 的 数据 结构 。 栈 是 LIFO ， 而 队列 是 FIFO( 先进 先 出 )。 
队列 就 像 是 排队 使 用 洗手 间 的 一 队 人 。 第 一 个 进入 队列 的 人 可 以 先进 入 洗手 间 。 队 列 至 少 具 有 与 栈 
类 似 的 push () 方法 和 pop () WHE. KIRE, Queue 的 实现 (底层 由 Python 的 deque 支持 ) 几乎 
与 Stack 的 实现 完全 相同 ， 只 有 一 点 儿 变 化 , 即 从 container 的 左 端 而 不 是 右 端 移 除 元 素 ,， 并 用 
deque 替换 了 1ist。 这 里 用 “ 左 ” 来 代表 底层 存储 结构 的 起 始 位 置 。 左 端的 元 素 是 在 deque 中 停 
留 时 间 最 长 的 元 素 ( 依 到 达 时 间 而 定 ), 所 以 它们 是 首先 弹出 的 元 素 。 具体 代码 如 代码 清单 2-22 所 示 。 
























































代码 清单 2-22 generic_search.py ( 4 ) 


class Queue (Generic[T]): 
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def init (self) -> None: 


self. container: Deque[T] = Deque() 


@property 
def empty(self) -> bool: 


return not self. container # not is true for empty container 


def push(self, item: T) -> None: 


self. container.append (item) 


def pop (self) -> T: 


return self. container.popleft() # FIFO 


def repr (self) -> str: 


return repr(self. container) 




















fem 为 什么 Queue 的 实现 要 用 deque 作为 其 底层 存储 结构 ， 而 Stack 的 实现 则 使 用 List fF 
为 其 底层 存储 结构 呢 ? 这 与 弹出 数据 的 位 置 有 关 。 在 栈 中 ， 是 右 侧 压 入 右 侧 弹出 。 在 队列 中 ， 也 是 
EWEA, 但 是 从 左 侧 弹出 。 Python 的 List 数据 结构 从 右 侧 弹出 的 效率 较 高 , 但 从 左 侧 弹出 则 不 然 。 
deque 则 从 两 侧 都 能 够 高 效 地 弹出 数据 。 因此， 在 deque 上 有 一 个 名 为 popleft () 的 内 置 方法 ， 




















但 在 list 上 则 没有 与 其 等 效 的 方法 。 当 然 可 以 找到 其 他 方法 来 用 list 作为 队列 的 底层 存储 结构 ， 
但 效率 会 比较 低 。 在 deque 上 从 左 侧 弹 出 数据 的 操作 复杂 度 为 O(1)， 而 在 1ist 上 则 为 OUD)。 在 用 
list 的 时 候 ， 从 左 侧 弹出 数据 后 ， 每 个 后 续 元 素 都 必须 向 左 移动 一 个 位 置 ， 效 率 也 就 降低 了 。 


2. BFS 算法 









































广度 优先 搜索 的 算法 与 深度 优先 搜索 的 算法 惊人 地 一 致 ， 只 是 frontier 由 栈 变 成 了 队列 。 
把 frontier 由 栈 改 为 队列 会 改变 对 状态 进行 搜索 的 顺序 ， 并 确保 离 起 点 状态 最 近 的 状态 最 先 
被 搜索 到 。 具 体 代 码 如 代码 清单 2-23 所 示 。 


代码 清单 2-23 generic_search.py ( 续 ) 





def bfs(initial: T, goal_test: Callable[[T], bool], successors: Callable[[T], List[T]]) 
-> Optional [Node[T]]: 

# frontier is where we've yet to go 

frontier: Queue[Node[T]] = Queue () 

frontier.push (Node (initial, None) ) 

# explored is where we've been 


explored: Set[T] = {initial} 


# keep going while there is more to explore 
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while not frontier.empty: 
current node: Node[T] = frontier.pop() 
current state: T = current_node.state 
# if we found the goal, we're done 
if goal_test(current_state): 
return current node 
# check where we can go next and haven't explored 
for child in successors (current state): 
if child in explored: # skip children we already explored 
continue 
explored.add (child) 
frontier.push (Node (child, current_node) ) 


return None # went through everything and never found goal 


运行 一 下 bfs () ， 就 会 看 到 它 总 会 找到 当前 迷宫 的 最 短路 径 。 在 if name == 
"main "部 分 中 ， 在 之 前 的 测试 代码 后 面 加 入 代码 清单 2-24 所 示 的 语句 ， 以 便 能 对 同一 个 
迷宫 对 比 两 种 算法 的 结果 。 


代码 清单 2-24 maze.py ( 续 ) 


# Test BFS 





solution2: Optional[Node[MazeLocation]] = bfs(m.start, m.goal test, m.successors) 
if solution2 is None: 

print ("No solution found using breadth-first search!") 
else: 

path2: List[MazeLocation] = node to path (solution2) 

m.mark (path2) 

print (m) 


m.clear (path2) 
令 人 惊讶 的 是 ， 算 法 可 以 保持 不 变 ， 只 需 修 改 其 访问 的 数据 结构 即 可 得 到 完全 不 同 的 结果 。 
以 下 是 在 之 前 名 为 dfs () 的 同一 个 迷宫 上 调用 bfs () 的 结果 。 请 注意 ， 用 星 号 标记 出 来 的 从 起 
点 到 目标 点 的 路 径 比 上 一 个 示例 中 的 路 径 更 为 直接 。 
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X X X 


大 大 大 大 大 大 大 大 大 GG 


2.2.5 ARR 


给 洋葱 层 层 剥皮 可 能 会 非常 耗 时 ， 广 度 优 先 搜索 正 是 如 此 。 和 BFS 一 样 ，Ax 搜 索 旨 在 找到 
从 起 点 状态 到 目标 状态 的 最 短路 径 。 与 以 上 BFS 的 实现 不 同 ，A* 搜 索 将 结合 运用 代价 函数 和 启 
发 函数 ， 把 搜索 集中 到 最 有 可 能 快速 抵达 目标 的 路 径 上 。 

代价 函数 g(n) 会 检查 抵达 指定 状态 的 成 本 。 在 求解 迷宫 的 场景 中 , 成 本 是 指 之 前 已 经 走 过 多 
少 步 才 到 达 当 前 状态 。 启 发 式 信息 计算 函数 h(n) 则 给 出 了 从 当前 状态 到 目标 状态 的 成 本 估算 。 可 
以 证 明 ， 如 果 h(n) 是 一 个 可 接受 的 启发 式 信 息 ( admissible heuristic )， 那 么 找到 的 最 终 路 径 将 是 
最 优 解 。 可 接受 的 启发 式 信息 永 远 不 会 高 估 抵 达 目 标的 成 本 。 在 二 维 平面 上 ， 直 线 距离 启发 式 信 
息 就 是 一 个 例子 ， 因 为 直线 总 是 最 短 的 路 径 ”。 

到 达 任 一 状态 所 需 的 总 成 本 为 fn), 它 只 是 合并 了 g(n) 和 有 h(n) 而已。 实际 上 ,fn) = gn) + h(n). 
当 从 frontier 选取 要 探索 的 下 一 个 状态 时 ，A* 搜 索 将 选择 ftn) 最 低 的 状态 ， 这 正 是 它 与 BFS 
和 DFS 的 区 别 。 



























































1. 优先 队列 


为 了 在 frontier 上 选 出 ftn) 最 低 的 状态 ，A* 搜 索 用 优先 队列 ( priority queue ) 作为 存储 
frontier 的 数据 结构 。 优先 队列 能 使 其 数据 元 素 维持 某 种 内 部 顺序 ,以 便 使 首先 弹出 的 元 素 始 
终 是 优先 级 最 高 的 元 素 。 在 本 例 中 ， 优 先 级 最 高 的 数据 项 是 ftn) 最 低 的 那个 。 通 常 这 意味 着 内 部 
将 会 采用 二 又 堆 ， 使 得 压 人 和 弹出 操作 的 复杂 度 均 为 Odg n)。 

Python 的 标准 库 中 包含 了 heappush () 函数 和 heappop () 函数 , 这 些 函 数 将 读 取 一 个 列表 
并 将 其 维护 为 二 又 堆 。 用 这 些 标准 库 函 数 构建 一 个 很 薄 的 封装 器 ， 即 可 实现 一 个 优先 队列 。 
PriorityQueue 类 将 与 Stack 类 和 Queue 类 很 相似 ,只 是 修改 了 push() 方 法 和 pop O 方法 ， 
以 便 可 以 利用 heappush () Al heappop () 。 具 体 代 码 如 代码 清单 2-25 所 示 。 


























代码 清单 2-25 generic_search.py ( 2 ) 





class PriorityQueue(Generic[T]): 
def init (self) -> None: 


self. container: List[T] = [] 


@property 








D 关于 启发 式 信息 的 更 多 信息 ， 参 见 StuartRussell 和 PeterNorvig 的 《人 工 智 能 : 一 种 现代 的 方法 (第 3 
版 )) (第 94 页 )。 
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def empty(self) -> bool: 


return not self. container # not is true for empty container 


def push(self, item: T) -> None: 


heappush(self. container, item) # in by priority 


def pop (self) -> T: 


return heappop (self. container) # out by priority 


def repr (self) -> str: 


return repr(self. container) 
为 了 确定 某 元 素 相对 于 其 他 同类 元 素 的 优先 级 ，heapPpush () 和 heappop () 用 “<” 操 作 
符 进行 比较 ,这 就 是 之 前 需要 在 Node 上 实现 ”1t O 的 原因 。 通 过 查看 相应 的 ftn) 即 可 对 Node 
进行 相互 比较 ，ftn) 只 是 简单 地 把 cost 属性 和 heuristic 属性 相 加 而 已 。 











2. 启发 式 信息 




















启发 式 信息 ( heuristics ) 是 对 问题 解决 方式 的 一 种 直觉 。 在 求解 迷宫 问题 时 ， 启 发 式 信息 
旨 在 选取 下 一 次 搜索 的 最 佳 迷 宫 位 置 , 最 终 是 为 了 抵达 目标 。 换 名 话说 , 这 是 一 种 有 根据 的 猜测 ， 
猜测 frontier 上 的 哪些 节点 最 接近 目标 位 置 。 如 前 所 述 ， 如 果 A* 搜 索 采用 的 启发 式 信息 能 
生成 相对 准确 的 结果 日 为 可 接受 的 (永远 不 会 高 估 距 离 ), 那么 A* 将 会 得 出 最 短路 径 。 追 求 更 短 
距离 的 启发 式 信息 最 终 会 导致 搜索 更 多 的 状态 ,而 追求 接近 实际 距离 ( 但 不 会 高 佑 ， 以 免 不 可 接 
Z) 的 启发 式 信息 搜索 的 状态 会 比较 少 。 因 此 ， 理 想 的 启发 式 信 息 应 该 是 尽 可 能 接近 真实 距离 ， 
而 不 会 过 分 高 估 。 



































3. KREA 














在 几何 学 中 ,两 点 之 间 的 最 短路 径 就 是 直线 。 因 此 在 求解 迷宫 问题 时 ， 直 线 启发 式 信息 总 是 
可 接受 的 ， 这 很 有 道理 。 由 毕 达 哥 拉 斯 定理 推导 出 来 的 欧 氏 距离 ( Euclidean distance ) 表明 : 
d = (a Ey ORAN 。 对 本 节 的 迷宫 问题 而 言 ，x 的 差 相当 于 两 个 迷宫 位 置 的 列 的 差 ，y 
的 差 相当 于 行 的 差 。 请 注意 ， 要 回 到 maze.py 中 去 实现 本 函数 。 具 体 代码 如 代码 清单 2-26 所 示 。 


代码 清单 2-26 maze.py ( 续 ) 


def euclidean distance (goal: MazeLocation) -> Callable[[MazeLocation], float]: 





def distance(ml: MazeLocation) -> float: 











D 关于 A* 搜 索 中 的 启发 式 算 法 的 更 多 信息 ， 参 见 AmitPatel 的 Thoughts on Pathfinding PHJ “Heuristics” 
一 章 。 


2.2 ”求解 迷宫 问题 41 


xdist: int = ml.column - goal.column 
ydist: int = ml.row - goal.row 
return sqrt((xdist * xdist) + (ydist * ydist) ) 


return distance 








euclidean distance () 函数 将 返回 另 一 个 函数 。 类 似 Python 这 种 支持 把 函数 视 为 “一 等 公 
民 ” 的 编程 语言 ,能够 支持 这 种 有 趣 的 做 法 distance () 将 获取 ( capture )euclidean _ distance () 
传人 的 goal MazeLocation,“ 获取 ”的 意思 是 每 次 调用 distance()M, distance () 都 可 
以 引用 此 变量 (持久 性 ) 返回 的 函数 用 到 了 goal 进行 计算 。 这 种 做 法 可 以 创建 参数 较 少 的 函数 。 
返回 的 aistance () 函数 只 用 迷宫 起 始 位 置 作为 参数 ， 并 持久 地 “看 到 ”goal。 

图 2-6 演示 了 网 格 环境 (如同 曼哈顿 的 街道 ) 下 的 欧 氏 距离 。 























图 2-6 欧 氏 距离 是 从 起 点 到 目标 点 的 直线 距离 











4. 曼哈顿 距离 


欧 氏 距离 非常 有 用 ， 但 对 于 此 处 的 问题 ( 只 能 朝 4 个 方向 中 的 一 个 方向 移动 的 迷宫 )， 我 们 
还 可 以 处 理 得 更 好 。 曼 哈 顿 距离 (Manhattan distance ) 源 自在 曼哈顿 的 街道 上 行走 ， 曼 哈 顿 是 纽 
约 最 著名 的 行政 区 ,以 网 格 模式 分 布 。 要 从 曼哈顿 的 任 一 地 点 到 另 一 地 点 ,需要 走 过 一 定数 量 的 
横向 街区 和 纵向 街区 ( 曼哈顿 几乎 不 存在 对 角 线 的 街道 ) 所 谓 曼 哈 顿 距离 ， 其 实 就 是 获得 两 个 
迷宫 位 置 之 间 的 行 数 差 ， 并 将 其 与 列 数 差 相 加 而 得 到 。 图 2-7 演示 了 曼哈顿 距离。 

具体 代码 如 代码 清单 .27 所 示 。 


代码 清单 2-27 maze.py ( 续 ) 


def manhattan distance(goal: MazeLocation) -> Callable[[MazeLocation], float]: 








def distance(ml: MazeLocation) -> float: 
xdist: int = abs(ml.column - goal.column) 
ydist: int = abs(ml.row - goal.row) 
return (xdist + ydist) 


return distance 
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图 2-7 ”曼哈顿 距离 不 涉及 对 角 线 。 路 径 必须 沿 着 水 平 线 或 垂直 线 前 进 

为 这 种 启发 式 信息 能 够 更 准确 地 契合 在 迷宫 中 移动 的 实际 情况 ( 沿 垂 直 和 水 平方 向 移动 而 
不 是 沿 对 角 线 移动 )， 所 以 它 比 欧 氏 距离 更 为 接近 从 迷宫 某 位 置 到 目标 位 置 的 实际 距离 。 因 此 ， 
如 果 A* 搜 索 与 曼哈顿 距离 组 合 使 用 , 其 遍历 的 迷宫 状态 就 会 比 A* 搜 索 与 欧 氏 距离 的 组 合 要 遍历 
的 迷宫 状态 要 少 一 些 。 结果 路 径 仍 会 是 最 优 解 ， 因为 对 于 在 其 中 仅 允许 朝 4 种 方向 移动 的 迷宫 而 
言 ， 曼 哈 顿 距离 是 可 接受 的 ( 永远 不 会 高 估 距 离 )。 


























5. AHA 


从 BFS 转 为 A* 搜 索 , 需要 进行 一 些小 的 改动 。 第 1 处 改动 是 把 frontier 从 队列 改 为 优先 
队列 , 这样 Frontier 就 会 弹出 /最 低 的 节点 。 第 2 处 改动 是 把 已 探索 的 状态 集 改 为 字典 类 型 。 
用 了 字典 将 能 跟踪 记录 每 一 个 可 能 被 访问 节点 的 最 低 成 本 (g(n) )。 用 了 启发 函数 后 , 如 果 启 发 计 
算 结 果 不 一 致 , 则 某 些 节 点 可 能 会 被 访问 两 次 。 如 果 在 新 的 方向 上 找到 节点 的 成 本 比 按 之 前 的 路 
线 访问 的 成 本 要 低 ， 我 们 将 会 采用 新 的 路 线 。 

为 简 音 起见， 函数 astar () 没有 把 代价 函数 用 作 参 数 ， 而 只 是 把 在 迷宫 中 的 每 一 跳 的 成 本 
简单 地 视 为 1。 每 个 新 Node 都 被 赋予 了 由 此 简单 公式 算出 的 成 本 值 ， 以 及 由 作为 参数 传 给 搜索 
函数 heuristic() 的 新 函数 计算 出 来 的 启发 分 值 。 除 这 些 改动 之 外 ，astar () 与 bfs () 极其 
相似 ， 不 妨 将 它们 放 在 一 起 做 一 个 比较 。 具 体 代码 如 代码 清单 2-28 所 示 。 


























代码 清单 2-28 generic_search.py ( 2 ) 


def astar(initial: T, goal test: Callable[[T], bool], successors: Callable[[T], 
List[T]], heuristic: Callable[[T], float]) -> Optional[Node[T]]: 
# frontier is where we've yet to go 
frontier: PriorityQueue[Node[T]] = PriorityQueue () 
frontier.push(Node(initial, None, 0.0, heuristic(initial) )) 
# explored is where we've been 
explored: Dict[T, float] = {initial: 0.0} 
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# keep going while there is more to explore 
while not frontier.empty: 
current node: Node[T] = frontier.pop() 
current state: T = current_node.state 
# if we found the goal, we're done 
if goal_test(current_state): 
return current_node 
# check where we can go next and haven't explored 
for child in successors (current_state): 
# 1 assumes a grid, need a cost function for more sophisticated apps 
new_cost: float = current_node.cost + 1 
if child not in explored or explored[child] > new_cost: 
explored[child] = new _cost 
frontier.push (Node (child, current_node, new cost, heuristic(child) )) 


return None # went through everything and never found goal 


恭喜 。 到 这 里 为 止 , 不 仅 迷 宫 问题 的 解法 介绍 完毕 ， 还 介绍 了 一 些 可 供 多 种 不 同 搜索 应 用 程 





序 使 用 的 通用 搜索 函数 。DFS 和 BFS 适用 于 小 型 的 数据 集 和 状态 空间 ， 这 种 情况 下 的 性 能 并 没 
那么 重要 。 在 某 些 情 况 下 ，DFS 的 性 能 会 优 于 BFS, 但 BFS 的 优势 是 始终 能 提供 最 佳 的 路 径 。 

有 趣 的 是 ，BFS 和 DFS 的 实现 代码 是 一 样 的 ， 差 别 仅仅 是 不 用 栈 而 用 了 队列 。 稍 微 复杂 一 点 的 
A* 搜 索 算 法 会 与 高 质量 、 保 证 一 致 性 、 可 接受 的 启发 式 信息 组 合 ， 不 仅 可 以 提供 最 佳 路 径 ， 而 
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能 也 远 远 优 于 BFS。 因 为 这 3 个 函数 都 是 以 通用 方式 实现 的 ， 所 以 只 需要 一 句 import 








generic_search 即 可 让 几乎 所 有 搜索 空间 都 能 使 用 它们 。 


下 面 用 maze.py 测试 部 分 中 的 同一 个 迷宫 对 astar (O 进行 测试 ,具体 代码 如 代码 清单 2-29 所 示 。 


代码 清单 2-29 maze.py ( 续 ) 


# Test A* 

distance: Callable[[MazeLocation], float] = manhattan_distance(m.goal) 

solution3: Optional [Node[MazeLocation]] = astar(m.start, m.goal_ test, m.successors, 
distance) 


if solution3 is None: 
print ("No solution found using A*!") 

else: 
path3: List[MazeLocation] = node_to_path(solution3) 
m.mark(path3) 


print (m) 


有 趣 的 是 ， 即 便 bfs () 和 astar () 都 找到 了 最 佳 路 径 ( 长度 相 等 )， 以 下 的 astar () 输出 与 











bfs O 也 略 有 不 同 。 因 为 有 了 启发 式 信息 ，astar () 立即 由 对 角 线 走向 了 目标 位 置 。 最 终 它 搜索 的 
状态 将 比 pfs () 更 少 ， 从 而 拥有 更 高 的 性 能 。 如 果 想 自行 证 明 这 一 点 ， 请 为 每 个 状态 添加 计数 器 。 
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23 ”传教 士 和 食 人 族 


3 名 传教 士 和 3 名 食 人 族 在 河 的 西岸 。 他 们 有 一 条 可 以 容纳 2 人 的 独 木 舟 ， 且 他 们 都 必须 渡 
到 河东 岸 去 。 河 两 岸 都 不 允许 食 人 族 的 人 数 比 传教 士 的 人 数 多 ,否则 食 人 族 就 会 吃 掉 传 教士 。 此 
Sh, 为 了 渡河 , 独 木 舟 上 至 少 得 有 1 个 人 。 这 些 人 以 什么 顺序 渡河 才能 成 功 地 使 所 有 人 都 渡 到 河 
对 岸 去 呢 ?” 图 2-8 描绘 了 本 问题 的 场景 。 









































图 2-8 传教 士 和 食 人 族 必 须 用 一 条 独 木 舟 从 河西 渡 到 河东 。 如 果 食 人 族 的 
人 数 超过 传教 士 的 人 数 ， 食 人 族 就 会 吃 掉 传 教士 
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2.3.1 表达 问题 
这 里 将 通过 一 个 记录 西岸 情况 的 数据 结构 将 问题 表达 出 来 。 西岸 有 多 少 名 传教 士 和 食 人 族 ? 
独 木 舟 在 西岸 吗 ? 只 要 有 了 西岸 的 情况 ,就 可 以 计算 出 东 岸 的 情况 了 ,因为 人 不 在 西岸 就 在 东 岸 。 


首先 要 创建 一 个 助手 变量 , 便于 记录 传教 士 或 食 人 族 的 最 多 人 数 。 然 后 将 定义 主 类 。 具 体 代 
人 码 如 代码 清单 2-30 所 示 。 


代码 清单 2-30 missionaries.py 


from future import annotations 





from typing import List, Optional 


from generic search import bfs, Node, node to path 
MAX_NUM: int = 3 


class MCState: 
def init (self, missionaries: int, cannibals: int, boat: bool) -> None: 
self.wm: int = missionaries # west bank missionaries 
self.wc: int = cannibals # west bank cannibals 
self.em: int = MAX NUM - self.wm # east bank missionaries 
self.ec: int = MAX NUM - self.wc # east bank cannibals 
self.boat: bool = boat 


def str (self) -> str: 


return ("On the west bank there are {} missionaries and {} cannibals.\n" 
"On the east bank there are {} missionaries and {} cannibals.\n" 
"The boat is on the {} bank.") \ 


.format (self.wm, self.wc, self.em, self.ec, ("west" if self.boat else "east") ) 


类 MCState 依据 西岸 的 传教 士 和 食 人 族 的 数量 、 独 木舟 的 位 置 进行 初始 化 。 它 还 知道 如 何 
把 自己 美观 地 打印 出 来 ， 这 在 以 后 显示 问题 的 解 时 会 很 有 用 。 

如 果 在 现 有 的 搜索 函数 范围 内 使 用 该 函数 , 就 意味 着 必须 定义 一 个 函数 用 于 测试 某 个 状态 是 
和 否 就 是 目标 状态 ， 并 定义 另 一 个 函数 用 于 从 任 一 状态 查找 后 续 步 又 。 正 如 求解 迷宫 问题 一 样 ， 测 
试 目标 的 函数 相当 简单 。 这 里 的 目标 就 是 到 达 一 种 满足 条 件 的 状态 , 即 所 有 传教 士 和 食 人 族 都 到 
达 了 东 岸 。 测 试 目标 的 函数 将 作为 MCState 的 方法 加 入 。 具 体 代 码 如 代码 清单 2-31 所 示 。 











代码 清单 2-31 missionaries.py ( 2 ) 


def goal_test (self) -> bool: 
return self.is legal and self.em == MAX NUM and self.ec == MAX NUM 
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为 了 创建 查找 后 续 步 又 的 函数 ,必须 遍历 从 西岸 到 东 岸 的 所 有 可 能 的 移动 步骤 , 并 检查 每 一 
步 移动 是 否 会 生成 满足 条 件 的 状态 。 回 想 一 下 , 满足 条 件 的 状态 就 是 食 人 族 的 人 数 在 两 岸 都 没有 
超过 传教 士 的 人 数 。 为 了 检测 这 一 点 ， 可 以 定义 一 个 助手 属性 〈 作 为 MCState 的 方法 ) 检查 状 


态 是 否 满足 条 件 。 具 体 代码 如 代码 清单 2-32 所 示 。 





代码 清单 2-32 missionaries.py ( 2 ) 


@property 
def is legal(self) -> bool: 
if self.wm < self.wc and self.wm > 0: 
return False 
if self.em < self.ec and self.em > 0: 
return False 


return True 


为 了 表达 清楚 ， 实 际 的 successors KAA ILIA. CAIRR RER ERR, ESE 
试 加 入 所 有 可 能 的 1 人 或 2 人 的 过 河 组 合 。 一 旦 所 有 可 能 的 移动 方案 全 部 添加 完毕 , 该 函数 就 会 
通过 列表 推导 式 (list comprehension ) 过 滤 出 确实 满足 条 件 的 解 。 此 函数 还 是 属于 MCState 的 


一 个 方法 。 具 体 代 码 如 代码 清单 2-33 所 示 。 


代码 清单 2-33 missionaries.py ( 2 ) 


def successors(self) -> List[MCState]: 
sucs: List[MCState] = [] 
if self.boat: # boat on west bank 
if self.wm > 1: 
sucs.append(MCState(self.wm - 2, self.wc, not 
if self.wm > 0: 
sucs.append(MCState(self.wm - 1, self.wc, not 
if self.wc > 1: 


sucs.append(MCState(self.wm, self.wc - 2, not 





if self.wc > 0: 
sucs.append(MCState(self.wm, self.wc - 1, not 


if (self.wc > 0) and (self.wm > 0): 








sucs.append(MCState(self.wm - 1, self.wc - 1, 
else: # boat on east bank 
if self.em > 1: 
sucs.append(MCState(self.wm + 2, self.wc, not 
if self.em > 0: 
sucs.append(MCState(self.wm + 1, self.wc, not 
if self.ec > 1: 


sucs.append(MCState(self.wm, self.wc + 2, not 





self.boat) ) 


self.boat) ) 


self.boat) ) 





self.boat) ) 


not self.boat) ) 


self.boat) ) 


self.boat) ) 


self.boat) ) 
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if self.ec > 0: 
sucs.append(MCState(self.wm, self.wc + 1, not self.boat) ) 
if (self.ec > 0) and (self.em > 0): 
sucs.append(MCState(self.wm + 1, self.wc + 1, not self.boat)) 


return [x for x in sucs if x.is legal] 


2.3.2 求解 


现在 万 事 俱 备 了 。 回 想 一 下 ， 当 用 搜索 函数 bfs () dfs () 和 astat() 求 解 问题 时 ， 返 回 
的 是 一 个 Node ， 最 后 会 用 node_ to_path () 将 其 转换 为 导出 解法 的 状态 列表 。 对 求解 传教 士 
和 食 人 族 问题 而 言 ， 我 们 还 需要 一 种 方案 将 这 个 列表 转换 为 能 打印 出 来 供 人 理解 的 一 系列 步骤 。 

函数 display_solution () 将 解 题 步 又 转换 为 打印 输出 一 一 可 供 阅读 的 解法 。 它 的 工作 原 
理 是 记录 最 终 状 态 的 同时 迭代 遍历 解 题 步骤 中 的 所 有 状态 。 它 会 查看 最 终 状 态 与 当前 正在 迭代 状 
态 之 间 的 差异 ， 以 找 出 每 次 渡河 的 传教 士 和 食 人 族 的 人 数 及 其 方向 。 具 体 代 码 如 代码 清单 2-34 
所 示 。 




















代码 清单 2-34 missionaries.py ( 2 ) 





def display solution (path: List[MCState]): 
if len(path) == 0: # sanity check 
return 
old_state: MCState = path[0] 
print (old state) 
for current state in path[1:]: 
if current _state.boat: 
print ("{} missionaries and {} cannibals moved from the east bank to the 
west bank. \n" 
. format (old_state.em - current_state.em, old _state.ec - current _state.ec) ) 
else: 
print ("{} missionaries and {} cannibals moved from the west bank to the 
east bank.\n" 
. format (old_state.wm - current_state.wm, old state.wc - current _state.wc) ) 
print (current _state) 


old_state = current_state 


McState 知道 如 何 用 str__() 来 美观 地 打印 出 对 其 自身 的 总 结 ,display_solution() 
函数 充分 利用 了 这 一 事实 。 

最 后 一 件 需要 完成 的 事情 就 是 解决 传教 士 和 食 人 族 问 题 。 因 为 我 们 已 经 实现 了 一 些 通 用 的 搜 
索 函 数 ， 所 以 只 要 顺手 复 用 一 下 这 些 函 数 就 可 解 出 了 。 本 方案 将 采用 bis () ， 因 为 dfs () 需要 
把 值 相同 而 引用 不 同 的 状态 都 标记 为 相等 状态 ， 而 astar () 需要 启发 式 信息 。 具 体 代码 如 代码 
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清单 2-35 所 示 。 





代码 清单 2-35 missionaries.py ( 2 ) 


if _name == "_main_": 
start: MCState = MCState (MAX NUM, MAX NUM, True) 
solution: Optional [Node [MCState]] = bfs (start, MCState.goal_test, MCState.successors) 
if solution is None: 
print ("No solution found!") 
else: 
path: List[MCState] = node_to_path (solution) 
display solution (path) 


很 高 兴 看 到 通用 的 搜索 函数 使 用 起 来 如 此 地 灵活 , 能 轻松 地 适用 于 多 种 问题 的 求解 。 输 出 结 
果 应 该 类 似 于 如 下 所 示 ( 有 删节 ): 


On the west bank there are 3 missionaries and 3 cannibals. 





On the east bank there are 0 missionaries and 0 cannibals. 
The boast is on the west bank. 


0 missionaries and 2 cannibals moved from the west bank to the east bank. 


On the west bank there are 3 missionaries and 1 cannibals. 
On the east bank there are 0 missionaries and 2 cannibals. 
The boast is on the east bank. 


0 missionaries and 1 cannibals moved from the east bank to the west bank. 


On the west bank there are 0 missionaries and 0 cannibals. 
On the east bank there are 3 missionaries and 3 cannibals. 


The boast is on the east bank. 


24 现实 世界 的 应 用 


在 所 有 实用 软件 中 , 搜索 算法 都 在 发 挥 着 作用 。 某 些 场合 中 搜索 算法 正 是 核心 内 容 ( 谷歌 搜 
ZR. Spotlight, Lucene ), 在 其 他 场合 中 它 是 运用 底层 数据 存储 结构 的 基础 。 对 于 某 个 数据 结构 应 
选用 正确 的 搜索 算法 ， 了 解 这 一 点 对 于 提高 性 能 至 关 重要 。 例如 ,在 已 排序 的 数据 结构 上 使 用 线 
性 搜索 而 不 用 二 分 搜索 ， 其 代价 就 会 十 分 高 昂 。 

A* 是 部 署 最 为 广泛 的 路 径 搜 索 算 法 之 一 。 只 有 那些 对 搜索 空间 进行 预计 算 的 算法 ， 才 能 
We A* 算 法 。 在 育 搜 (blind search ) 的 情况 下 ，A* 算 法 在 所 有 场景 中 都 还 没有 被 确实 击败 过 ， 这 
使 得 它 无 论 在 路 线 规划 中 还 是 在 查找 解析 编程 语言 的 最 短路 径 中 都 成 为 一 种 必 备 组 件 。 大 多 数 导 
航 类 地 图 软件 ( 如 谷歌 地 图 ) 都 使 用 Dijkstra 算法 (A* 是 其 变 体 ) 进行 导航 。 第 4 章 中 有 关于 
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Dijkstra 算法 的 更 多 信息 。 在 没有 人 为 干预 的 情况 下 ,如 果 游 戏 中 的 AI 角色 要 查找 从 世界 的 一 端 
到 另 一 端的 最 短路 径 ， 那 么 它 可 能 会 使 用 A* 算 法 。 

更 为 复杂 的 搜索 算法 往往 是 以 广度 优先 搜索 和 深度 优先 搜索 为 基础 的 ， 如 一 致 代 价 
(uniform-cost ) 搜索 和 回溯 搜索 (第 3 章 中 将 会 介绍 ) 广度 优先 搜索 技术 通常 足以 应 对 在 小 规模 
中 查找 最 短路 径 ， 但 由 于 它 和 A* 很 相似 ， 因 此 如 果 大 规模 图 具备 良好 的 启发 式 信息 ， 则 切换 
为 A* 也 很 容易 。 























2.5 习题 


1. 请 创建 包含 100 万 个 数 的 列表 ， 用 本 章 定义 的 linear_contains() 和 binary_ 
contains () 函数 分 别 在 该 列表 中 查找 多 个 数 并 计时 , 以 演示 二 分 搜索 相对 于 线性 搜索 的 性 
能 优势 。 

2. 给 afs() 、bfs() 和 astar () 添 加 计数 咽 ， 以 便 查 看 它们 对 同一 迷宫 进行 搜索 时 遍历 
的 状态 数量 。 请 针对 100 个 不 同 的 迷宫 进行 搜索 并 计数 ， 以 获得 统计 学 上 有 效 的 结论 。 

3. 多 求解 几 种 不 同 初始 人 数 的 传教 士 和 食 人 族 问题 。 提 示 : 可 能 需要 覆盖 MCState 的 
eq () 方 法 和 hash () 方 法 。 
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很 多 要 用 计算 工具 来 解决 的 问题 基本 都 可 
归 类 为 约束 满足 问题 ( constraint-satisfaction 
problem, CSP )。CSP 由 一 组 变量 构成 ， 变 量 可 
能 的 取 值 范围 被 称 为 值 域 (domain )。 要 求解 约 
束 满足 问题 需要 满足 变量 之 间 的 约束 。 变 量 、 值 
域 和 约束 这 3 个 核心 概念 很 容易 理解 , 它们 的 通 
用 性 决定 了 其 对 于 求解 约束 满足 问题 的 广泛 适 
用 性 。 

考虑 一 个 示例 。 假 设 要 安排 Joe. Mary 和 
Sue 参加 周 五 的 会 议 。Sue 至 少 得 和 另 一 个 人 一 
起 参 会 。 在 此 日 程 安排 问题 中 , Joe. Mary 和 Sue 
这 3 个 人 可 以 是 变量 。 每 个 变量 的 值 域 可 以 是 他 
们 各 自 的 可 用 时 间 。 例 如 ， 变 量 Mary 的 值 域 包 
括 下 午 2 点 、 下 午 3 点 和 下 午 4 点 。 此 问题 还 有 
两 个 约束 ,其 中 一 个 是 Sue 必须 参 会 , 另 一 个 是 
至 少 得 有 两 个 人 参 会 。 因此 我 们 将 为 本 约束 满足 
问题 的 求解 程序 提供 3 个 变量 、3 个 值 域 和 2 个 
AR, 旦 该 求解 程序 无 须 用 户 精 确 说 明 做 法 就 能 
解决 问题 。 图 3-1 展示 了 这 一 示例 。 
类 似 Prolog 和 Picat 这 样 的 编程 语言 已 经 内 
置 了 解决 约束 满足 问题 的 工具 。 其 他 语言 中 的 常 
用 技术 是 构建 一 个 由 回溯 搜索 和 几 种 启发 式 信 





































































































周 五 的 会 议 
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日 程 安排 问题 是 约束 满足 








E 架 的 经 典 应 用 
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息 组 合 而 成 的 框架 ， 加 入 启发 式 信 息 是 为 了 提高 搜索 的 性 能 。 本 章 首 先 会 构建 一 个 CSP 框架 ,将 
采用 简单 的 递归 回溯 搜索 法 来 求解 约束 满足 问题 ， 然 后 将 使 用 该 框架 来 解决 几 个 不 同 的 示例 问题 。 





3.1 构建 约束 满足 问题 的 解决 框架 


约束 将 用 Constraint 类 来 定义 。 每 个 Constraint 包括 受 其 约束 的 变量 variables, 
以 及 检查 是 否 满足 条 件 的 satisfied() 方 法 。 确定 是 否 满足 约束 是 开始 定义 某 个 约束 满足 问题 
所 需 的 主要 逻辑 。satisfied() 的 默认 实现 代码 应 该 被 重 写 (overridden )， 其 实 也 必须 如 此 ， 
因为 Constraint 类 将 被 定义 为 抽象 基 类 。 抽 象 基 类 本 来 就 不 是 注定 要 被 实例 化 的 ， 只 有 重 写 
并 实现 了 eabstractmethods 的 抽象 基 类 的 子 类 才能 用 于 实际 应 用 。 有 具体 代码 如 代码 清单 3-1 








所 示 。 


代码 清单 3-1 csp.py 


from typing import Generic, TypeVar, Dict, List, Optional 


from abc import ABC, abstractmethod 


V = TypeVar('V') # variable type 
D = TypeVar('D') # domain type 


# Base class for all constraints 

class Constraint (Generic[V, D], ABC): 
# The variables that the constraint is between 
def init (self, variables: List[V]) -> None: 


self.variables = variables 


# Must be overridden by subclasses 


@abstractmethod 


def satisfied(self, assignment: Dict[V, D]) -> bool: 




















提示 “抽象 基 类 在 类 的 层次 结构 中 充当 着 模板 的 作用 。 在 其 他 语言 (如 C++ ) 中 ， 它 们 作为 面向 用 
户 的 特性 , 比 在 Python 中 应 用 更 为 普遍 。 实际 上 , 抽象 基 类 是 在 Python 发 展 的 中 途 才 被 引入 Python 
的 。 话 虽 如 此 ，Python 标准 库 中 的 许多 集合 (collection) 类 都 是 通过 抽象 基 类 实现 的 。 一 般 建议 不 
要 在 自己 的 代码 中 使 用 抽象 基 类 ， 除 非 确定 要 构建 的 框架 不 仅仅 是 供 内 部 使 用 的 类 架构 ， 而 是 要 作 




































































为 供 其 他 人 构建 的 基础 。 要 获得 更 多 信息 ， 请 参阅 Luciano Ramalho 
Python) 的 第 11 Æ (O’Reilly，2015 )。 














的 《流畅 的 Python) (Fluent 





该 约束 满足 框架 的 核心 将 是 一 个 名 为 CSP 的 类 。CcSP 是 变量 、 值 域 和 约束 的 汇集 点 ， 其 类 


型 提示 用 到 了 泛 型 以 使 其 保持 足够 的 灵活 性 ,从 而 能 处 理 任意 类 型 





的 变量 和 域 值 ( 键 V 和 域 值 D )。 
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在 CSP 中 , 424 variables, domains 和 constraints 可 以 是 你 期 望 的 任意 类 型 。variables 

合 是 变量 的 list, domains 是 把 变量 映射 为 可 取 值 的 列表 ( 这 些 变量 的 值 域 ) 的 dict 类 型 ， 
而 constraints 则 是 把 每 个 变量 映射 为 其 所 受 约束 的 List 的 dict 类 型 。 具 体 代 码 如 代码 清 
单 3-2 所 示 。 


代码 清单 3-2 csp.py (4 ) 


# A constraint satisfaction problem consists of variables of type V 








# that have ranges of values known as domains of type D and constraints 
# that determine whether a particular variable's domain selection is valid 
class CSP(Generic[V, D]): 
def init (self, variables: List[V], domains: Dict[V, List[D]]) -> None: 
self.variables: List[V] = variables # variables to be constrained 
self.domains: Dict[V, List[D]] = domains # domain of each variable 
self.constraints: Dict[V, List[Constraint[V, D]]] = {} 
for variable in self.variables: 
self.constraints[variable] = [] 
if variable not in self.domains: 
raise LookupError ("Every variable should have a domain assigned to it.") 
def add_constraint(self, constraint: Constraint[V, D]) -> None: 
for variable in constraint.variables: 
if variable not in self.variables: 
raise LookupError ("Variable in constraint not in CSP") 
else: 


self.constraints [variable] .append(constraint) 


”init () 初始 化 方法 中 将 会 创建 dict 类 型 的 constraints, add_constraint () 
方法 会 遍历 给 定 约束 涉及 的 所 有 变量 ,并 将 其 这 一 约束 添加 到 每 个 变量 的 constraints 映射 中 
去 。 这 两 个 方法 都 带 有 一 些 基 本 的 错误 检查 代码 ,如 果 Variables 缺少 值 域 或 者 constraints 
用 到 了 不 存在 的 变量 ， 都 将 会 引发 异常 。 


如 何 判断 给 定 的 变量 配置 和 所 选 域 值 是 否 满 足 约 束 呢 ? 这 个 给 定 的 变量 配置 被 称 为 “赋值 ”。 
我 们 需要 一 个 函数 能 根据 某 种 赋值 检查 给 定 变量 的 每 个 约束 ,以 查看 该 赋值 中 的 变量 值 是 否 满 
EHAR RIRA 3-3 中 将 实现 consistent () 函数 ， 其 为 CSP 的 一 个 方法 。 





代码 清单 3-3 csp.py ( 续 ) 


# Check if the value assignment is consistent by checking all constraints 
# for the given variable against it 
def consistent (self, variable: V, assignment: Dict[V, D]) -> bool: 

for constraint in self.constraints[variable]: 


if not constraint.satisfied(assignment) : 
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return False 


return True 


consistent () 将 遍历 给 定 变量 〈 一定 是 刚刚 加 入 到 赋值 中 的 变量 ) 的 每 个 约束 ， 并 检查 
新 的 赋值 是 否 满足 约束 。 如 果 该 赋值 满足 全 部 约束 ， 则 返回 True。 只 要 施加 于 变量 的 约束 中 有 
一 条 不 满足 ， 就 返回 False. 

本 约束 满足 框架 将 使 用 简单 的 回溯 搜索 来 找到 问题 的 解 。 回 淘 的 思路 如 下 : 一 旦 在 搜索 中 
碰 到 障碍 ， 就 会 回 到 碰 到 障碍 之 前 最 后 一 次 做 出 判断 的 已 知 点 ， 然 后 选择 其 他 的 一 条 路 径 。 如 
果 你 觉得 这 看 起 来 像 是 第 2 章 中 的 深度 优先 搜索 ， 那 么 你 真是 很 敏锐 。 在 代码 清单 3-4 中 ， 
backtracking search () 函数 实现 的 回溯 搜索 正 是 一 种 递归 式 深度 优先 搜索 ， 它 结合 了 第 1 
章 和 第 2 章 中 介绍 的 思路 。 该 函数 将 作为 方法 加 入 CSP 类 。 


代码 清单 3-4 csp.py ( 续 ) 


def backtracking search(self, assignment: Dict[V, D] = {}) -> Optional[Dict[V, D]]: 











# assignment is complete if every variable is assigned (our base case) 
if len(assignment) == len(self.variables): 


return assignment 


# get all variables in the CSP but not in the assignment 


unassigned: List[V] = [v for v in self.variables if v not in assignment] 


# get the every possible domain value of the first unassigned variable 
first: V = unassigned[0] 
for value in self.domains[first]: 
local_assignment = assignment.copy() 
local_assignment [first] = value 
# if we're still consistent, we recurse (continue) 
if self.consistent (first, local_assignment) : 
result: Optional[Dict[V, D]] = self.backtracking_search (local_assignment) 
# if we didn't find the result, we will end up backtracking 
if result is not None: 
return result 


return None 


下 面 来 逐 行 过 一 遍 backtracking search () A. 


if len(assignment) == len(self.variables): 





return assignment 


递归 搜索 的 基线 条 件 是 为 每 个 变量 都 找到 满足 条 件 的 赋值 , 一 旦 找到 就 会 返回 满足 条 件 的 解 
的 第 一 个 实例 ， 而 不 会 继续 搜索 下 去 。 
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unassigned: List[V] = [v for v in self.variables if v not in assignment] first: V 


= unassigned[0] 

为 了 选 出 一 个 新 变量 来 探索 其 值 域 ， 只 需 遍 历 所 有 变量 并 找 出 第 一 个 未 赋值 的 变量 。 为 此 ， 
我 们 用 列表 推导 式 为 在 self.variables 中 但 不 在 assignment 中 的 变量 创建 一 个 变量 
1ist， 并 将 其 命名 为 unassigned， 然 后 取出 unassigned 中 的 第 一 个 值 。 


for value in self.domains[first]: 














local_assignment = assignment.copy() 


local_assignment[first] = value 
我 们 尝试 为 该 变量 赋予 所 有 可 能 的 域 值 ， 每 次 只 赋 一 个 。 新 的 赋值 都 存储 在 名 为 
local_assignment 的 局 部 字典 中 。 
if self.consistent (first, local_assignment) : 
result: Optional[Dict[V, D]] = self.backtracking search (local_assignment) 
if result is not None: 
return result 
如 果 local_assignment 中 的 新 赋值 满足 所 有 约束 ( 即 consistent () 检查 的 内 容 ), 我 
们 就 会 用 新 赋值 继续 进行 递归 搜索 。 如 果 新 赋值 已 涵盖 了 全 体 变量 ( 基线 条 件 )， 那 么 我 们 就 会 
把 新 赋值 返回 到 递归 调用 链 中 去 。 
return None # no solution 
如 果 已 经 对 茶 变 量 遍 历 了 每 一 种 可 能 的 域 值 ， 并 且 用 现 有 的 一 组 赋值 没有 找到 解 ， 就 返回 
None ， 表 示 该 问题 无 解 。 这 会 导致 递归 调用 链 回 溯 到 之 前 成 功 做 出 上 一 次 赋值 的 位 置 。 
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请 想象 有 一 张 澳大利亚 地 图 ， 希望 按 州 /属地 ( 统称 为 “地 区 ”) 进行 着 色 。 不 允许 两 个 相 邻 
区 共用 一 种 颜色 。 请 问 你 能 只 用 3 种 不 同 的 颜色 为 所 有 地 区 进行 着 色 吗 ? 

答案 是 肯定 的 。 不 妨 自 行 尝试 一 下 。 最 简单 的 做 法 是 打印 一 张 白色 背景 的 澳大利亚 地 图 。 人 
们 可 以 通过 检查 和 少量 的 反复 试 错 来 快速 求解 。 对 之 前 的 回溯 式 约 束 满 足 问题 求 解 程序 而 言 , 这 
只 是 一 个 小 问题 ， 拿 来 初试 牛刀 太 合适 不 过 了 。 该 地 图 着 色 问 题 如 图 3-2 所 示 。 

要 将 地 图 着 色 问 题 建 模 为 CSP, 需要 定义 变量 、 值 域 和 约束 。 变 量 是 澳大利亚 的 7 个 地 区 ( 至 
少 这 里 仅 限 于 这 7 个 地 区 ): Western Australia, Northern Territory, South Australia, Queensland 、 
New South Wales Victoria 和 Tasmania。 在 此 CSP 中 可 以 用 字符 串 进 行 建 模 。 每 个 变量 的 值 域 是 
可 供 赋值 的 3 种 颜色 ， 这 里 将 用 到 红色 、 绿 色 和 蓝 色 。 约 束 是 比较 环 手 的 部 分 。 由 于 不 允许 对 两 
个 相 邻 地 区 用 相同 颜色 进行 着 色 , 因此 约束 将 取决 于 有 哪些 地 区 是 彼此 相 邻 的 。 这 里 可 以 采用 二 
元 约束 ( 两 个 变量 间 的 约束 )。 共 用 边界 的 两 个 地 区 也 将 共用 一 条 二 元 约束 ， 表 示 不 能 给 它们 赋 
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予 相同 的 颜色 。 





' 》 


Y Tasmania 


图 3-2 ”在 澳大利亚 地 图 着 色 问 题 的 解 里 ， 不 允许 有 相 邻 地 区 同色 

要 在 代码 中 实现 这 些 二 元 约束 , 需要 子 类 化 Constraint 24, MapColoringConstraint 子 
类 的 构造 函数 需要 给 出 两 个 变量 ， 即 共用 边界 的 两 个 地 区 ， 其 重 写 的 satisfied() 方 法 将 首先 
检查 两 个 地 区 是 否 赋 有 域 值 (颜色 )。 如 果 其 中 任何 一 个 地 区 都 没有 域 值 , 那么 在 获得 域 值 之 
前 ， 约 束 都 能 轻松 得 以 满足 ， 因 为 如 果 其 中 一 个 地 区 还 没有 颜色 ， 就 不 可 能 发 生 冲 突 。 然 后 
该 方法 将 检查 两 个 地 区 是 否 被 赋予 了 相同 的 颜色 。 显 然 ， 如 果 颜 色相 同 就 存在 冲突 ， 意 味 着 
不 满足 约束 。 

代码 清单 3-5 将 给 出 完整 的 MapColoringConstraint 类 ， 其 本 身 在 类 型 提示 方面 不 是 泛 型 
化 的 ， 但 它 是 泛 型 类 Constraint 的 参数 化 版 本 的 子 类 ， 标 明了 变量 和 值 域 都 是 str 类型。 











代码 清单 3-5 map_coloring.py 


from csp import Constraint, CSP 


from typing import Dict, List, Optional 
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class MapColoringConstraint (Constraint[str, str]): 
def init (self, placel: str, place2: str) -> None: 
super(). init ([placel, place2]) 
self.placel: str = placel 
self.place2: str = place2 


def satisfied(self, assignment: Dict[str, str]) -> bool: 
# If either place is not in the assignment, then it is not 
# yet possible for their colors to be conflicting 
if self.placel not in assignment or self.place2 not in assignment: 


return True 


# check the color assigned to placel is not the same as the 
# color assigned to place2 


return assignment[self.placel] != assignment [self.place2] 
提示 。 有 时 会 用 super) 调用 超 类 的 方法 ， 但 也 可 以 使 用 类 本 身 的 名 称 来 调用 ， 正 如 


Constraint. init  ({placel, place2])。 在 处 理 多 重 继承 时 ， 这 种 用 法 特别 有 用 ， 因 为 
这 样 对 于 要 调用 哪个 超 类 的 方法 非常 明了 。 

















现在 对 于 地 区 之 间 的 约束 有 实现 方案 了 ， 因 而 用 CSP 求解 程序 表现 澳大利亚 地 图 着 色 问 题 
就 简单 了 ， 只 需 填 人 值 域 和 变量 ， 再 添加 约束 即 可 。 上 有 具体 代码 如 代码 清单 3-6 所 示 。 


代码 清单 3-6 map_coloring.py ( 续 ) 


if name == "_main_": 
variables: List[str] = ["Western Australia", "Northern Territory", "South Australia", 
"Queensland", "New South Wales", "Victoria", "Tasmania" ] 
domains: Dict[str, List[str]] = {} 
for variable in variables: 
domains[variable] = ["red", "green", "blue"] 
csp: CSP[str, str] = CSP(variables, domains) 
csp.add_constraint (MapColoringConstraint ("Western Australia", "Northern Territory") ) 
csp.add_constraint (MapColoringConstraint ("Western Australia", "South Australia") ) 
csp.add_constraint (MapColoringConstraint ("South Australia", "Northern Territory") ) 
csp.add_constraint (MapColoringConstraint ("Queensland", "Northern Territory") ) 
csp.add_constraint (MapColoringConstraint ("Queensland", "South Australia") ) 
csp.add_constraint (MapColoringConstraint ("Queensland", "New South Wales") ) 
csp.add_ constraint (MapColoringConstraint ("New South Wales", "South Australia") ) 
csp.add_constraint (MapColoringConstraint ("Victoria", "South Australia") ) 


csp.add_constraint (MapColoringConstraint ("Victoria", "New South Wales") ) 











csp.add_constraint (MapColoringConstraint ("Victoria", "Tasmania") ) 
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最 后 ， 调 用 backtracking_search () 求 出 一 个 解 。 具 体 代 码 如 代码 清单 3-7 所 示 。 


代码 清单 3-7 map_coloring.py ( 续 ) 





solution: Optional[Dict[str, str]] = csp.backtracking search () 
if solution is None: 

print ("No solution found!") 
else: 


print (solution) 


一 个 正确 的 解 将 会 包含 每 个 地 区 的 赋值 颜色 。 


{'Western Australia': 'red', 'Northern Territory': 'green', 'South Australia’: 
"blue', 'Queensland': 'red', 'New South Wales': 'green', 'Victoria': 'red', 
'Tasmania': 'green'} 


33 ” 八 皇 后 问题 


棋盘 是 8 x 8 的 正方 形 网 格 。 皇 后 是 可 以 在 棋盘 上 治 任何 行 、 列 或 对 角 线 移动 任意 个 格子 的 
棋子 。 每 次 移动 时 ， 皇 后 会 攻击 其 他 的 某 个 棋子 , 它 能 移动 到 该 棋子 所 在 的 格子 但 不 会 越过 任何 
其 他 棋子 。 换 句 话说, 如果 有 其 他 棋子 在 皇后 的 视线 范围 内 , 它 就 会 受到 攻击 。 八 皇后 问题 提出 ， 
如 何在 不 发 生 相 互 攻击 的 情况 下 将 8 个 皇后 放 在 棋盘 上 ， 如 图 3-3 所 示 。 














a b c d © (f(g a 


图 3-3 ”在 八 皇后 问题 的 解 ( 解 有 很 多 ) 中 ， 
两 个 皇后 间 不 能 相互 构成 威胁 
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为 了 表示 棋盘 上 的 格子 , 我 们 将 为 每 个 格子 赋予 整数 的 行 号 和 列 号 。 只 要 简单 地 按 顺 序 
从 第 1 列 到 第 8 列 赋值 (图 3-3 中 用 a~h 表示 )， 即 可 确保 8 个 皇后 中 的 每 一 个 都 不 在 同一 
列 上 。 不 妨 将 此 约束 满足 问题 中 的 变量 设 为 皇后 所 在 的 列 号 。 值 域 则 可 以 是 摆 放 皇后 的 可 能 
的 行 号 (同样 也 是 从 1 到 8 )。 代 码 清单 3-8 展示 了 源码 文件 的 最 后 部 分 , 其 中 定义 了 这 些 变 
量 和 值 域 。 


代码 清单 3-8 queens.py 





if name == "_main_": 
columns: List[int] = [1, 2, 3, 4, 5, 6, 7, 8] 
rows: Dict[int, List[int]] = {} 


for column in columns: 
rows[column] = [1, 2, 3, 4, 5, 6, 7, 8] 
csp: CSP[int, int] = CSP (columns, rows) 
为 了 解决 八 皇 后 问题 , 我 们 需要 有 一 个 约束 来 检查 任意 两 个 皇后 是 否 位 于 同一 行 或 同一 对 角 
线 上 。 (一 开始 它们 已 经 者 被 赋予 了 不 同 的 列 号 。) 检查 它们 是 否 位 于 同一 行 十 分 简单 , 但 检查 它 
们 是 否 位 于 同一 条 对 角 线 则 需 用 到 一 点 点 数学 知识 。 如果 任 意 两 个 皇后 位 于 同一 条 对 角 线 上 , 则 
它们 所 在 的 行 差 将 与 列 差 相 同 。 你 能 在 QueensConstraint 中 找 出 进行 上 述 检查 的 代码 吗 ? TE 
意 ， 代 码 清单 3-9 所 示 的 代码 位 于 源码 文件 的 开始 部 分 。 





























代码 清单 3-9 queens.py ( 续 


from csp import Constraint, CSP 


from typing import Dict, List, Optional 


class QueensConstraint(Constraint[int, int]): 


def init (self, columns: List[int]) -> None: 
super(). init (columns) 
self.columns: List[int] = columns 

def satisfied(self, assignment: Dict[int, int]) -> bool: 


# qlc = queen 1 column, qlr = queen 1 row 
for qlc, qlr in assignment.items(): 
# q2c = queen 2 column 
for q2c in range(qlc + 1, len(self.columns) + 1): 
if q2c in assignment: 
q2r: int = assignment[q2c] # g2r = queen 2 row 
if qlr == q2r: # same row? 
return False 


if abs(qlr - q2r) == abs(qlc - q2c): # same diagonal? 
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return False 


return True # no conflict 


剩 下 的 工作 就 是 加 入 约束 并 运行 搜索 了 。 现 在 回 到 源码 文件 的 底部 ， 如 代码 清单 3-10 所 示 。 


代码 清单 3-10 queens.py ( 续 ) 


csp.add_constraint (QueensConstraint (columns) ) 











solution: Optional[Dict[int, int]] = csp.backtracking search () 
if solution is None: 

print ("No solution found!") 
else: 


print (solution) 
注意 , 为 地 图 着 色 构 建 的 约束 满足 问题 的 求解 框架 复 用 起 来 十 分 轻松 , 可 用 于 解决 类 型 完全 
不 同 的 问题 , 这 正 是 编写 通用 型 代码 的 威力 ! 除非 是 为 了 优化 特定 应 用 程序 的 性 能 而 需要 进行 特 
别处 理 ， 否 则 算法 就 应 以 尽 可 能 广泛 适用 的 方式 来 实现 。 
正确 解 将 为 每 个 皇后 都 赋予 行 号 和 列 号 。 
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单词 搜索 问题 是 一 个 填 满 了 字母 的 网 格 ， 沿 着 行 、 列 和 对 角 线 隐藏 着 一 些 单词 。 单 词 搜索 
问题 的 玩家 要 通过 仔细 扫描 网 格 来 找到 隐藏 的 单词 。 找 到 位 置 放置 这 些 单 词 使 其 正好 能 填 人 网 
格 ， 这 就 是 一 种 约束 满足 问题 。 变 量 就 是 单词 ， 值 域 则 是 这 些 单词 可 能 的 位 置 。 单 词 搜索 问题 
如 图 3-4 所 示 。 

为 方便 起 见 , 这 里 的 单词 搜索 问题 将 不 包含 重 莅 的 单词 。 不 妨 作为 习题 对 问题 进行 改进 ， 以 
AF WER, 

这 个 单词 搜索 问题 的 网 格 与 第 2 章 的 迷宫 有 点 儿 类 似 。 代 码 清单 3-11 中 有 一 些 数据 类 型 应 
该 看 起 来 很 眼熟 。 


代码 清单 3-11 word_search.py 


from typing import NamedTuple, List, Dict, Optional 














from random import choice 
from string import ascii uppercase 


from csp import CSP, Constraint 


Grid = List[List[str]] # type alias for grids 
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class GridLocation (NamedTuple): 
row: int 


column: int 
































图 3-4 经典 的 单词 搜索 问题 可 能 出 现 
在 儿童 益 智 图 书 中 

一 开始 我 们 将 用 英文 字母 (ascii_uppercase ) 填充 网 格 ， 还 需要 一 个 显示 网 格 的 函数 。 
具体 代码 如 代码 清单 3-12 所 示 。 


























代码 清单 3-12 word_search.py ( 续 ) 





def generate grid(rows: int, columns: int) -> Grid: 
# initialize grid with random letters 
return [[choice(ascii_ uppercase) for c in range(columns)] for r in range(rows) ] 


def display grid(grid: Grid) -> None: 
for row in grid: 
print ("".join (row) ) 
为 了 将 单词 在 网 格 中 的 位 置 标识 出 来 , 需要 生成 其 值 域 。 单 词 的 值 域 是 其 全 部 字母 可 能 放置 
的 位 置 的 列表 的 列表 (List[List[GridLocation]] ) 但 是 ,单词 不 能 任意 放置 ， 它 们 必须 
位 于 网 格 范 围 内 的 行 、 列 或 对 角 线 上 。 换 句 话 说， 单词 长 度 不 能 超过 网 格 的 边界 。 
generate_domain () 的 目标 就 是 为 每 个 单词 创建 这 些 列 表 。 具 体 代 码 如 代码 清单 3-13 所 示 。 


代码 清单 3-13 word_search.py ( 2 ) 


def generate domain(word: str, grid: Grid) -> List[List[GridLocation]]: 











domain: List[List[GridLocation]] = [] 
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height: int = len(grid) 
width: int = len(grid[0]) 
length: int = len (word) 
for row in range (height): 
for col in range(width): 
columns: range = range(col, col + length + 1) 
rows: range = range (row, row + length + 1) 
if col + length <= width: 
# left to right 
domain.append([GridLocation(row, c) for c in columns] ) 
# diagonal towards bottom right 
if row + length <= height: 
domain.append([GridLocation(r, col + (r - row)) for r in rows]) 
if row + length <= height: 
# top to bottom 
domain.append([GridLocation(r, col) for r in rows]) 
# diagonal towards bottom left 
if col - length >= 0: 
domain.append([GridLocation(r, col - (r - row)) for r in rows]) 





return domain 

对 于 单词 可 能 的 位 置 范 围 ( 沿 着 行 、 列 或 对 角 线 )， 列 表 推 导 式 用 类 的 构造 函数 将 范围 转换 
为 GridqLocation 的 列表 。 因 为 generate domain () 对 每 个 单词 都 会 循环 遍历 从 左上 角 到 右 
下 角 的 每 一 个 网 格 位 置 , 所 以 它 会 涉及 大 量 的 计算 。 请 问 你 能 想 出 一 种 更 高 效 的 方法 吗 ?” 如 果 在 
循环 中 把 长 度 相同 的 单词 一 次 遍历 完 ， 又 会 怎样 ? 

若 要 检查 可 能 的 解 是 否 有 效 ， 必 须 为 单词 搜索 问题 定制 约束 。WordSearchConstraint 的 
satisfied() 方 法 只 会 检查 为 某 个 单词 推荐 的 任何 位 置 是 否 与 为 其 他 单词 推荐 的 位 置 相 同 ， 这 
一 点 用 set 来 实现 。 将 list 转换 为 set 将 移 除 所 有 重复 项 。 如 果 从 list 转换 而 来 的 set 中 
的 数据 项 少 于 原 list 中 的 数据 项 ， 则 表示 原 1ist 中 包含 一 些 重复 项 。 为 了 准备 数据 以 进行 此 
项 检查 , 将 用 到 稍微 复杂 一 些 的 列表 推导 式 , 以 便 把 赋值 中 每 个 单词 的 多 个 位 置 子 列表 组 合 为 一 
个 大 的 位 置 列表 。 具 体 代码 如 代码 清单 3-14 所 示 。 


代码 清单 3-14 word_search.py ( 4 ) 


class WordSearchConstraint (Constraint[str, List[GridLocation]]): 









































def init (self, words: List[str]) -> None: 
super(). init (words) 
self.words: List[str] = words 
def satisfied(self, assignment: Dict[str, List[GridLocation]]) -> bool: 
# if there are any duplicates grid locations, then there is an overlap 
all_locations = [locs for values in assignment.values() for locs in values] 
return len(set(all_locations)) == len(all_locations) 


一 切 就 绪 ， 现 在 可 以 运行 了 。 在 本 例 中 , TE 9x9 的 网 格 中 包含 5 个 单词 。 这 里 求 得 的 解 应 
该 包含 每 个 单词 与 其 字母 在 网 格 中 的 位 置 之 间 的 映射 关系 。 具 体 代 码 如 代码 清单 3-15 所 示 。 
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代码 清单 3-15 word_search.py ( 续 ) 


if name == "_main_": 
grid: Grid = generate grid(9, 9) 
words: List[str] = ["MATTHEW", "JOE", "MARY", "SARAH", "SALLY"] 
locations: Dict[str, List[List[GridLocation]]] = {} 
for word in words: 
locations[word] = generate domain (word, grid) 


] 
csp: CSP[str, List[GridLocation]] = CSP(words, locations) 
csp.add_constraint (WordSearchConstraint (words) ) 
solution: Optional[Dict[str, List[GridLocation]]] = csp.backtracking_ search() 
if solution is None: 
print ("No solution found!") 
else: 
for word, grid_locations in solution.items(): 
# random reverse half the time 
if choice([True, False]): 
grid_locations. reverse () 
for index, letter in enumerate (word): 
(row, col) = (grid_locations[index].row, grid_ locations [index] .column) 
grid[row] [col] = letter 
display grid(grid) 


上 述 代码 的 底部 有 一 处 点 睛 之 笔 ， 就 是 用 单词 填充 网 格 的 语句 。 其 中 随机 选取 了 几 个 单词 并 
对 它们 做 了 逆序 处 理 。 因 为 此 示例 不 允许 单词 重 琶 ， 所 以 这 是 合理 的 。 最 终 的 输出 应 如 下 所 示 。 
能 找到 Matthew, Joe, Mary, Sarah 和 Sally 吗 ? 


LWEHTTAMJ 
MARYLISGO 
DKOJYHAYE 
IAJYHALAG 
GY ZJWRLGM 
LLOTCAYIX 
PEUTUSLKO 
AJZYGIKDU 
HSLZOFNNR 


3.9 字谜 ( SEND+MORE=MONEY ) 


字谜 (SEND+MORE=MONEY ) 是 一 种 数字 密码 谜 题 ， 日 标 是 要 找到 将 换 字 母 的 数字 使 数 
学 式 成 立 。 该 问题 中 的 每 个 字母 都 代表 一 个 数字 (0 ~ 9 )。 同 一 个 数字 只 会 用 一 个 字母 来 表示 。 
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如 果 字 母 重复 出 现 ， 则 表示 最 后 的 解 中 也 有 数字 重复 。 
如 果 要 人 工 求解 字迹 问题， 那么 把 单词 排 成 竖 式 会 很 有 用 。 
SEND 


+MORE 
=MONEY 


只 要 运用 一 点 代数 知识 和 直觉 ， 人 工 求解 一 定 是 可 行 的 。 但 一 个 相当 简单 的 计算 机 程序 可 以 
WAR) (brute-forcing ) 试探 大 量 可 能 的 结果 来 更 快 地 求解 。 下 面 把 SEND + MORE = MONEY 
迷 题 表示 为 约束 满足 问题 ， 具 体 代 码 如 代码 清单 3-16 所 示 。 











代码 清单 3-16 send_more_money.py 





from csp import Constraint, CSP 


from typing import Dict, List, Optional 


class SendMoreMoneyConstraint (Constraint[str, int]): 


def init (self, letters: List[str]) -> None: 
super(). init (letters) 
self.letters: List[str] = letters 

def satisfied(self, assignment: Dict[str, int]) -> bool: 


# if there are duplicate values, then it's not a solution 
if len (set (assignment.values())) < len(assignment): 


return False 


# if all variables have been assigned, check if it adds correctly 
if len(assignment) == len(self.letters): 
s: int = assignment["S" 
e: int = assignment ["E" 
int = assignment ["N" 


int = assignment ["D" 


3 Q 5 


int = assignment ["M" 
o: int = assignment["0" 


r: int = assignment["R" 








y: int = assignment ["Y" 
send: int = s * 1000 + e * 100 +n * 10 +4 

more: int =m * 1000 + o * 100 +r* 10 +e 

money: int =m * 10000 + o * 1000 +n * 100 te * 10 + y 
return send + more == money 


return True # no conflict 
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SendMoreMoneyConstraint 的 satisfied() 方 法 完成 了 一 些 任 务 。 首 先 , 它 检查 是 否 
存在 多 个 字母 代表 同一 个 数字 的 情况 ， 如 果 存 在 则 说 明 那 是 一 个 无 效 解 ， 返 回 False。 然 后 ， 
它 检 查 是 否 已 给 所 有 字母 赋值 ， 如 果 是 则 会 检查 已 有 赋值 是 否 符 合 公式 ( SEND+MORE=MONEY ), 
如 果 符 合 则 说 明 解 已 找到 ， 返回 True, 否则 返回 False。 最 后 ， 如 果 尚 未 给 所 有 字母 赋值 ， 则 
返回 True， 这 是 为 了 保证 能 继续 求解 。 

下 面试 着 运行 一 下 代码 清单 3-17 中 的 代码 。 











代码 清单 3-17 send_more_money.py ( 续 ) 


if name == "_ main : 
letters: List[str] = ES "E", "N", "Dp", "mM", "o", "R", Me | 
possible digits: Dict[str, List[int]] = {} 


for letter in letters: 


possible digits[letter] = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9] 
possible digits["M"] = [1] # so we don't get answers starting with a 0 
csp: CSP[str, int] = CSP(letters, possible digits) 


csp.add_constraint (SendMoreMoneyConstraint (letters) ) 
solution: Optional[Dict[str, int]] = csp.backtracking_search() 
if solution is None: 
print ("No solution found!") 
else: 


print (solution) 
注意 ， 这 里 会 预先 给 字母 M 赋 上 答案 ， 这 是 为 了 确保 M 的 解 中 不 会 包含 0， 因 为 约束 里 没 
有 规定 数字 不 能 从 0 开始 。 大 家 可 以 去 试 试 ， 看 看 不 做 此 预先 赋值 会 发 生 什么 情况 。 
结果 将 如 下 所 示 : 





3.6 电路 板 布局 


制造 商 需 要 将 某 些 矩形 的 芯片 装 到 和 矩形 电路 板 上 。 这 个 问题 在 本 质 上 就 是 如 何 把 几 个 大 小 不 
同 的 和 矩形 严 丝 合 颖 地 放置 于 另 一 个 矩形 内 ? 约束 满足 问题 的 求解 程序 可 以 找到 解决 方案 ,此 问题 
如 图 3-5 所 示 。 

电路 板 布局 问题 类 似 于 单词 搜索 问题 ， 但 不 是 1xN 的 矩形 (单词 )， 而 是 存在 MN 的 矩形 。 
像 单词 搜索 问题 一 样 , 矩形 不 能 重 又 。 这 些 矩 形 不 能 放 在 对 角 线 上 ， 所 以 从 这 个 意义 上 来 说 本 问 
题 实际 上 要 比 单词 搜索 简单 一 些 。 

请 自行 尝试 重 写 单词 搜索 求解 程序 ， 使 其 适用 于 电路 板 布局 问题 。 大 部 分 代码 都 可 以 复 用 ， 
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包括 表示 网 格 的 代码 。 














图 3-5 ”电路 板 布局 问题 与 单词 搜索 问题 非常 
相似 ， 只 不 过 矩形 可 以 是 不 同 宽度 的 





3.7 现实 世界 的 应 用 


正如 本 章 开头 所 述 , 约束 满足 问题 的 求解 程序 通常 可 用 于 日 程 安排 。 有 几 个 人 需要 参加 会 议 ， 
那么 这 几 个 人 就 是 变量 ， 而 值 域 由 他 们 时 间 表 中 的 空闲 时 间 组 成 ,约束 则 可 能 涉及 会 议 需要 哪些 
人 员 一 起 参加 。 

动作 规划 (motion planning ) 也 可 能 用 到 约束 满足 问题 的 求解 程序 。 不 妨 想象 一 个 需要 安装 
在 管道 内 的 机 械 臂 ， 它 包括 了 约束 ( 管道 壁 )、 变 量 (关节 ) 和 值 域 (关节 可 能 做 出 的 动作 )。 

求解 约束 满足 问题 在 计算 生物 学 中 也 有 应 用 。 可 以 认为 化 学 反应 需要 的 是 分 子 间 的 约束 。 当 
然 ， 正 如 常见 的 AI 一 样 ， 它 在 游戏 中 也 有 应 用 。 下 面 有 一 道 习题 就 是 编写 数 独 求解 程序 ， 用 约 
束 满足 问题 求解 方案 可 以 解决 很 多 逻辑 谜 题 。 

本 章 构 建 了 一 种 简单 的 回溯 式 、 深 度 优 先 搜索 的 解 题 框架 。 不 过 若 能 添加 启发 式 信息 一 一 可 
以 指导 搜索 过 程 的 直觉 (还 记得 A* 吗 ? ), 就 能 够 极 大 地 提高 搜索 性 能 。 有 一 种 比 回溯 更 新 的 技 
术 叫 作 约 束 传播 ( constraint propagation )， 也 是 一 种 现实 世界 应 用 中 的 高 效 方案 。 要 获得 更 多 信 
息 ， 请 查看 Stuart Russell 和 Peter Norvig 的 《人 工 智能 : 一 种 现代 的 方法 (28 3 版)》 (Artificial 
Intelligence: A Modern Approach ) ( Pearson, 2010 ) 的 第 6 章 。 




















3.8 习题 


3.8 ”习题 
1， 修 改 WordSearchConstraint VEE PANES 
2， 若 还 没有 完成 3.6 节 中 描述 的 电路 板 布局 问题 的 求解 程序 ， 请 完成 。 
3. 用 本 章 的 约束 满足 问题 的 求解 框架 构建 一 个 解决 数 独 问题 的 程序 。 
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第 4 重 图 问题 





E (graph) 是 一 种 抽象 的 数学 结构 ， 它 通过 将 问题 划分 为 一 组 连接 的 节点 对 现实 世界 的 问 
题 进行 建 模 。 每 个 节点 被 称 为 顶点 〈vertex )， 每 个 连接 被 称 为 边 ( edge )。 例 如 ， 地 铁路 线 图 就 
可 以 被 视 为 表示 交通 网 络 的 图 。 每 个 点 代表 一 个 地 铁 站 ,每 条 线 代表 两 个 地 铁 站 之 间 的 路 线 。 在 
图 的 术语 中 ， 地 铁 站 被 称 为 “顶点 ”， 路 线 被 称 为 “ 边 ”。 

为 什么 图 很 有 用 呢 ? 图 不 仅 有 助 于 我 们 抽象 地 思考 问题 , 还 可 以 让 我 们 应 用 几 种 易 懂 、 
高 效 的 搜索 和 优化 技术 。 例 如 ， 在 地 铁 的 示例 中 ， 假 如 我 们 要 知道 从 一 个 站 到 另 一 个 站 的 
最 短路 径 ， 或 者 想 知道 连通 所 有 站 点 至 少 需 要 多 少 轨道 。 本 章 介 绍 的 图 算法 就 能 解决 这 两 
个 问题 。 此 外 ， 图 算法 还 可 以 应 用 于 任何 类 型 的 网 络 ( 如 计算 机 网 络 、 配 送 网 络 和 公用 事 
业 网 络 ) 问题 ， 而 并 不 仅 限于 交通 网 络 。 用 图 算法 可 以 解决 所 有 这 些 网 络 空间 中 的 搜索 和 
优化 问题 。 
































41 地 图 就 是 图 


本 章 不 讨论 地 铁 站 点 图 ， 而 要 用 到 一 些 美 国 的 城市 和 城市 间 可 能 存在 的 路 线 。 图 4-1 是 美国 
人 口 普 查 局 (Census Bureau ) 佑 算 的 美国 大 陆 及 其 15 个 最 大 的 都 市 统计 区 ( metropolitan statistical 
area, MSA) 的 地 图 。 
著名 企业 家 艾 伦 ' 马 斯 克 (Elon Musk ) 已 经 建议 搭建 一 个 新 型 高 速 交 通 网 络 ， 该 网 络 由 在 
压力 管道 中 穿梭 的 胶 宫 构成 。 根 据 马 斯 克 的 建议 ， 胶 宫 将 以 1126 kmh 的 速度 行进 ,适合 在 相距 
1448 km 之 内 的 城市 间 的 经 济 高 效 的 交通 。 他 将 这 种 新 型 交通 系统 称 为 “超级 高 铁 ”( Hyperloop )。 





































































































D 数据 来 自 美 国人 口 普查 局 的 American Fact Finder 数据 库 。 
© Elon Musk 的 Hyperloop Alpha. 
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本 章 将 会 以 搭建 此 交通 网 络 为 背景 探讨 经 典 的 图 问题 。 
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图 4-1 美国 15 个 最 大 的 MSA HR 

马 斯 克 最 初 提 出 的 想法 是 连接 Los Angeles 和 San Francisco 的 超级 高 铁 。 如 果 要 建立 一 个 全 
国 性 的 超级 高 铁 网 络 , 那么 在 美国 最 大 的 都 市 区 之 间 实 施 才 会 有 意义 。 在 图 4-2 中 , 去 掉 了 图 4-1 
中 的 州 边界 。 此 外 ， 每 个 MSA 都 与 另外 几 个 MSA 相 邻 。 为 了 让 图 增加 一 些 趣味 性 ， 这 些 邻 居 
并 不 都 是 离 得 最 近 的 MSA。 
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图 4-2 图 的 顶点 代表 美国 最 大 的 15 个 MSA， 边 代表 MSA 之 间 可 能 存在 的 超级 高 铁路 线 
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4-2 展示 的 就 是 一 个 图 ， 其 中 顶点 代表 美国 最 大 的 15 个 MSA， 边 代表 MSA 之 间 可 能 
存在 的 超级 高 铁路 线 。 选择 这 些 路 线 仅 为 了 用 作 演 示 , 其 他 路 线 当 然 有 可 能 加 入 超级 高 铁 网 络 。 

这 种 对 现实 世界 问题 的 抽象 表示 凸显 了 图 的 威力 。 通过 这 种 抽象 , 我 们 可 以 忽略 美国 的 地 理 
信息 ， 而 专注 于 在 连接 城市 的 背景 下 考虑 可 能 实现 的 超级 高 铁 网 络 。 事 实 上 ， 只 要 保持 边 不 变 ， 
我 们 就 可 以 用 不 同 外 观 的 图 来 考虑 问题 。 例 如 ， 在 图 4-3 中 Miami 的 位 置 就 被 移动 过 了 。 图 4-3 
中 的 图 已 经 成 了 一 种 抽象 表示 , 可 以 处 理 与 图 4-2 相同 的 计算 问题 ,即使 Miami 不 在 应 有 的 位 置 
也 没关系 。 不 过 为 了 符合 情理 ， 这 里 还 是 采用 图 4-2 表示 。 
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24-3 ”图 4-2 的 等 效 图 ，Miami 移 了 个 位 置 
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Python 可 以 用 多 种 不 同 的 风格 进行 编程 ,但 从 本 质 上 说 ,Python 是 一 种 面向 对 象 的 编程 语言 。 
本 节 将 定义 两 种 不 同类 型 的 图 : 无 权 图 (unweighted graph ) 和 加 权 图 (weighted graph )。 本 章 稍 
后 会 讨论 加 权 图 ， 即 为 每 条 边关 联 一 个 权重 ( 即 读数 ， 如 示例 中 的 长 度 )。 

这 里 将 采用 继承 模型 ， 其 为 Python 面向 对 象 的 类 层次 结构 之 基础 ， 因 此 不 用 重复 编写 代码 。 
本 数据 模型 中 的 加 权 类 将 是 对 应 无 权 类 的 子 类 , 这 样 无 权 类 的 大 部 分 功能 就 能 得 以 继承 ， 只 要 稍 
加 调整 就 能 让 加 权 图 与 无 权 图 有 所 区 别 了 。 

这 个 图 的 框架 应 该 尽 可 能 保持 灵活 ,以 便 能 尽 可 能 多 地 表示 各 种 不 同 的 问题 。 为 了 实现 这 一 










































































户 定 义 的 泛 型 类 型 。 
下 面 就 从 定义 Edge 类 开始 搭建 框架 , 该 类 是 此 图 框架 中 最 简单 的 部 分 。 具体 代 码 如 代码 清 
单 4-1 所 示 。 
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代码 清单 4-1 edge.py 


from future import annotations 


from dataclasses import dataclass 


@dataclass 
class Edge: 
u: int # the "from" vertex 


v: int # the "to" vertex 


def reversed(self) -> Edge: 


return Edge(self.v, self.u) 


def str (self) -> str: 


return f"{self.u} -> {self.v}" 





Bdge 被 定义 为 两 个 顶点 之 间 的 连接 ， 每 个 顶点 由 整数 索引 表示 。 这 里 按 惯例 用 u 表示 第 1 
个 项 点, 7 表示 第 2 个 顶点 。 也 可 以 将 视 为 “起 点 ”而 Y 视 为 “终点 "。 本 章 仅 处 理 无 向 图 (图 








的 边 允 许 双向 行进 ), 但 是 在 有 向 图 中 ， 边 也 可 以 是 单 向 的 。reversed() 方 法 应 该 返回 与 当前 
边 反 向 的 Edge。 





注意 Edge 类 用 到 了 Python 3.7 中 的 新 特性 dataclass。 标 有 装饰 器 edataclass 的 类 通过 自动 创 
建 init  () 方 法 来 保存 一 些 零碎 数据 ， 该 方法 将 会 实例 化 类 中 所 有 声明 时 带 有 类 型 注解 (type 
annotation ) 的 变量 。dataclass 特性 还 可 以 自动 为 类 创建 其 他 的 特殊 方法 。 可 以 用 装饰 器 配置 需要 自 
动 创建 的 特殊 方法 。 要 获得 详细 信息 ， 请 参阅 Python 的 dataclass 文档 。 简 而 言 之 ， 采 用 dataclass 
特性 可 以 节省 一 些 录 入 的 时 间 。 


Graph 类 重点 关注 图 的 基本 用 途 : 将 顶点 与 边关 联 起 来 。 同 样 ， 顶 点 的 实际 类 型 仍然 应 该 
是 使 用 框架 的 用 户 所 期 望 的 任意 类 型 ， 这 样 无 须 构 建 把 各 种 类 型 的 数据 聚 在 一 起 的 中 间 数 据 结 
构 ， 就 能 让 本 框架 应 用 于 大 量 不 同 的 问题 。 例如， 在 类 似 于 超级 高 铁 线 路 的 图 中 ,顶点 的 类 型 可 
以 定义 为 str， 因 为 我 们 会 用 到 “New York” 和 “Los Angeles” 这 种 字符 串 作为 顶点 。 下 面 开 始 
介绍 Graph 类 ， 具体 代码 如 代码 清单 4-2 所 示 。 


代码 清单 4-2 graph.py 


from typing import TypeVar, Generic, List, Optional 
































from edge import Edge 


V = TypeVar('V') # type of the vertices in the graph 


class Graph(Generic[V]): 


def init (self, vertices: List[V] = []) -> None: 
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self. vertices: List[V] = vertices 
self. edges: List[List[Edge]] = [[] for _ in vertices] 

列表 vertices 是 Graph 类 的 核心 。 每 个 顶点 都 会 存储 于 该 列表 中 , 稍 后 我 们 会 通过 它们 
在 列表 中 的 整数 索引 来 引用 它们 。 顶 点 本 身 可 以 是 复杂 的 数据 类 型 ， 但 它 的 索引 肯定 是 int 类 
型 ， 以 便于 使 用 。 从 另 一 个 层面 来 说 ， 通 过 在 图 算法 和 _vezrtices 数组 之 间架 设 的 这 个 索引 ， 
同一 张 图 中 可 以 出 现 两 个 相同 值 的 顶点 。 不 妨 想象 一 张 以 某国 城市 作为 顶点 的 图 , 该 国有 多 个 名 
为 “Springfield” 的 城市 。 即 便 顶 点 的 值 相 同 ， 它 们 也 可 以 有 不 同 的 整数 索引 。 

图 的 数据 结构 可 以 有 多 种 实现 方案 ， 最 常见 的 两 种 就 是 采用 顶点 算 阵 ( vertex matrix ) 或 邻 
接 表 ( adjacency list )。 在 顶点 矩阵 中 ， 和 矩阵 的 每 个 元 素 表 示 图 中 两 个 顶点 是 否 相 连 ， 元 素 的 
值 表示 顶点 间 的 连通 度 (或 无 连接 )。 此 处 图 的 数据 结构 采用 邻接 表 方 案 。 在 这 种 图 表示 方式 
中 ， 每 个 顶点 都 有 一 个 与 其 连接 的 顶点 列表 。 这 里 采用 由 边 的 列表 组 成 的 列表 ， 因 此 每 个 顶 
点 都 带 有 一 个 多 条 边 组 成 的 列表 ， 顶 点 通过 该 列表 与 其 他 顶点 相连 ，_edges 就 是 这 个 列表 
的 列表 。 

下 面 将 给 出 Graph 类 的 其 余部 分 。 请 注意 这 里 的 方法 都 很 简短 ， 大 部 分 都 只 有 一 行 代码 ， 
并 且 都 带 有 详细 而 清晰 的 方法 名 称 ， 这 使 得 Graph 类 的 其 余部 分 应 该 在 很 大 程度 上 做 到 了 不 言 
自明 ， 不 过 为 了 彻底 消除 误解 ， 还 是 加 上 了 简短 的 注释 。 具 体 代码 如 代码 清单 4-3 所 示 。 















































代码 清单 4-3 graph.py ( 续 ) 


@property 
def vertex count (self) -> int: 


return len(self. vertices) # Number of vertices 


@property 
def edge count (self) -> int: 


return sum(map(len, self. edges)) # Number of edges 


# Add a vertex to the graph and return its index 
def add _vertex(self, vertex: V) -> int: 
self. vertices.append (vertex) 
self. edges.append([]) # Add empty list for containing edges 


return self.vertex_count - 1 # Return index of added vertex 


# This is an undirected graph, 
# so we always add edges in both directions 
def add_edge(self, edge: Edge) -> None: 

self. edges [edge.u] .append (edge) 

self. edges[edge.v] .append (edge. reversed() ) 
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# Add an edge using vertex indices (convenience method) 
def add_edge by indices(self, u: int, v: int) -> None: 
edge: Edge = Edge(u, v) 
self.add_edge (edge) 


# Add an edge by looking up vertex indices (convenience method) 
def add_edge by vertices(self, first: V, second: V) -> None: 

u: int = self. vertices.index(first) 

v: int = self. vertices.index (second) 


self.add_edge by indices(u, v) 


# Find the vertex at a specific index 
def vertex at(self, index: int) -> V: 


return self. vertices [index] 


# Find the index of a vertex in the graph 
def index of(self, vertex: V) -> int: 


return self. vertices.index (vertex) 


# Find the vertices that a vertex at some index is connected to 
def neighbors for index(self, index: int) -> List[V]: 


return list (map(self.vertex at, [e.v for e in self. edges[index]]) ) 


# Look up a vertice's index and find its neighbors (convenience method) 
def neighbors for vertex(self, vertex: V) -> List[V]: 


return self.neighbors for index(self.index_ of (vertex) ) 


# Return all of the edges associated with a vertex at some index 
def edges _for_index(self, index: int) -> List[Edge]: 


return self. edges [index] 


# Look up the index of a vertex and return its edges (convenience method) 
def edges for _vertex(self, vertex: V) -> List[Edge]: 


return self.edges for index(self.index of (vertex) ) 


# Make it easy to pretty-print a Graph 
def str (self) -> str: 
desgi SEL Sor! 
for i in range(self.vertex count): 
desc += £"{self.vertex_at(i)} -> {self.neighbors for _index(i)}\n" 


return desc 
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不 妨 回 头 看 一 下 ， 为 什么 这 个 类 的 大 多 数 方 法 有 两 个 版 本 呢 ? 从 类 的 定义 可 以 得 知 ， 
_vertices 是 由 V 类 型 的 元 素 构成 的 列表 , V 可 以 是 任意 Python 类 。 于 是 就 有 V 类 型 的 顶点 存 
储 在 _vertices 列表 中 。 但 在 后 续 要 检索 或 操作 这 些 顶 点 的 时 候 ， 就 需要 知道 它们 在 该 列表 中 
的 存储 人 位置。 因此， 每 个 顶点 在 数组 中 都 有 一 个 与 之 关联 的 索引 ( 整数 )。 如 果 我 们 不 知道 顶点 
的 索引 , 就 需要 遍历 _vertices 来 查找 ,这 就 是 每 种 方法 都 有 两 个 版 本 的 原因 ,一 个 是 基于 int 
索引 进行 操作 ， 另 一 个 是 基于 V 本 身 进 行 操作 。 基 于 V 操作 的 方法 会 搜索 其 关联 的 索引 并 调用 
基于 索引 的 函数 。 因 此 ， 基 于 V 的 方法 可 被 视 为 快捷 方法 。 

大 多 数 方法 都 是 无 须 解释 的 , 但 neighbors_for_index () 值得 做 一 些 解析 ， 它 会 返回 顶 



























































中 , New York 和 Washington 是 Philadelphia 的 唯一 的 共同 邻居 。 通 过 查看 由 某 个 顶点 发 出 的 所 有 
边 的 末端 (7 )， 就 能 找到 该 顶点 的 所 有 和 邻居。 


def neighbors for index(self, index: int) -> List[V]: 





return list (map(self.vertex_at, [e.v for e in self. edges[index]]) ) 


_edges [index] 就 是 邻接 表 , 当前 顶点 通过 该 列表 中 的 边 与 其 他 项 点 相连 。 在 传递 给 map () 
调用 的 列表 推导 式 中 ，e 代表 某 条 边 ，e.v 代表 该 边 所 连接 的 邻居 的 索引 。map () 将 返回 所 有 项 
点 对 象 〈 而 不 仅仅 是 它们 的 索引 )， 因 为 map () 对 每 个 e.v 都 会 调用 vertex_at () 方 法 。 

还 有 一 个 重点 需要 注意 ， 就 是 add_edge() 的 工作 方式 。add_egge () 首先 把 某 条 边 添加 
到 “起 点 ”顶点 Cu) 的 邻接 表 中 ， 然 后 将 这 条 边 的 逆向 边 添加 到 “终点 ”顶点 Cv) 的 邻接 表 
中 。 因 为 该 图 是 无 向 图 , 所 以 这 里 的 第 2 步 是 必需 的 。 我 们 希望 对 每 条 边 都 添加 两 个 方向 ， 这 意 
RE u 是 v 的 邻居 ， 同 样 v 也 是 u 的 邻居 。 如 果 这 有 助 于 记 住 每 条 边 都 能 双向 通行 ， 那 么 可 以 
将 无 向 图 视 为 “双向 ”图 。 


def add edge (self, edge: Edge) -> None: 





















































self. edges[edge.u] .append (edge) 
self. edges[edge.v] .append(edge.reversed() ) 
如 前 所 述 ， 我 们 在 本 章 中 只 处 理 无 向 图 。 除 无 向 图 和 有 向 图 之 外 ， 图 还 可 以 是 无 权 图 或 加 

权 图 。 加 权 图 带 有 一 些 与 其 每 条 边关 联 的 可 供 比较 的 值 (通常 为 数字 值 )。 在 超级 高 铁 网 络 中 ， 
可 以 将 站 点 之 间 的 距离 视 为 权重 。 但 这 里 将 只 处 理 该 图 的 无 权 版 。 不 带 权 的 边 只 是 两 个 顶点 
之 间 的 连接 ， 因 此 Edge 类 和 Graph 类 都 是 无 权 的 。 换 一 种 方式 来 说 ， 在 无 权 图 中 我 们 只 知 
道 哪些 顶点 是 相连 的 ， 而 在 加 权 图 中 我 们 不 仅 知道 哪些 顶点 是 连通 的 ， 还 知道 这 些 连接 的 某 
些 属性 。 



































边 和 图 的 用 法 
现在 我 们 已 经 有 了 Edge 和 Graph 的 具体 实现 ， 接 下 来 就 可 以 创建 超级 高 铁 网 络 的 表现 形 
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型 为 str (Graph [str] )。 换 句 话 说， 用 str 类 型 填充 类 型 变量 V。 具 体 代码 如 代码 清单 4-4 
所 示 。 


代码 清单 4-4 graph.py ( 4 ) 


if name == "_main_": 

# test basic Graph construction 

city graph: Graph[str] = Graph(["Seattle", "San Francisco", "Los Angeles", 
"Riverside", "Phoenix", "Chicago", "Boston", "New York", "Atlanta", "Miami", 
"Dallas", "Houston", "Detroit", "Philadelphia", "Washington" ] ) 

city graph.add_edge_ by vertices ("Seattle", "Chicago") 

city graph.add_edge_ by vertices ("Seattle", "San Francisco") 

city graph.add edge by vertices ("San Francisco", "Riverside") 

city graph.add_edge_ by vertices ("San Francisco", "Los Angeles") 

city graph.add_edge by vertices("Los Angeles", "Riverside") 

city graph.add_edge_ by vertices("Los Angeles", "Phoenix") 

city graph.add_edge_ by vertices ("Riverside", "Phoenix") 

city graph.add_edge_ by vertices ("Riverside", "Chicago") 

city graph.add edge by vertices ("Phoenix", "Dallas") 

city graph.add_edge_ by vertices ("Phoenix", "Houston") 

city graph.add_edge_ by vertices("Dallas", "Chicago") 

city graph.add edge by vertices("Dallas", "Atlanta") 

city graph.add_edge_ by vertices("Dallas", "Houston") 

city graph.add_edge_ by vertices ("Houston", "Atlanta") 

city graph.add_edge_by vertices ("Houston", "Miami") 

city graph.add_edge_ by vertices ("Atlanta", "Chicago") 

city graph.add_edge_ by vertices ("Atlanta", "Washington") 

city graph.add_edge_by vertices ("Atlanta", "Miami") 

city graph.add_edge_ by vertices ("Miami", "Washington") 

city graph.add_edge_ by vertices ("Chicago", "Detroit") 

city graph.add edge by vertices("Detroit", "Boston") 

city graph.add_edge_ by vertices("Detroit", "Washington") 

city graph.add_edge_ by vertices ("Detroit", "New York") 

city graph.add_edge_ by vertices ("Boston", "New York") 


city graph.add_edge_ by vertices ("New York", "Philadelphia") 














city graph.add edge by vertices ("Philadelphia", "Washington") 
print (city graph) 
city_graph 的 顶点 为 str 类 型 ， 这 里 就 用 MSA 的 名 称 来 标识 每 个 顶点 ， 且 与 边 加 入 
city graph 的 顺序 没有 关系 。 因 为 已 经 编写 了 str _() ， 图 的 美观 打印 形式 已 经 具备 了 ， 
所 以 现在 可 以 将 图 美观 打印 ( pretty-print， 它 真是 一 个 术语 ) 出 来 。 输 出 应 该 类 似 如 下 所 示 : 
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Seattle -> ['Chicago', 'San Francisco'] 

San Francisco -> ['Seattle', 'Riverside', 'Los Angeles'] 

Los Angeles -> ['San Francisco', 'Riverside', 'Phoenix'] 

Riverside -> ['San Francisco', 'Los Angeles', 'Phoenix', 'Chicago'] 
Phoenix -> ['Los Angeles', 'Riverside', 'Dallas', 'Houston'] 
Chicago -> ['Seattle', 'Riverside', 'Dallas', 'Atlanta', 'Detroit'] 
Boston -> ['Detroit', 'New York'] 

New York -> ['Detroit', 'Boston', 'Philadelphia'] 

Atlanta -> ['Dallas', 'Houston', 'Chicago', 'Washington', 'Miami'] 
Miami -> ['Houston', 'Atlanta', 'Washington'] 


Dallas -> ['Phoenix', 'Chicago', 'Atlanta', 'Houston'] 


Houston -> ['Phoenix', 'Dallas', 'Atlanta', 'Miami'] 
Detroit -> ['Chicago', 'Boston', 'Washington', 'New York'] 
Philadelphia -> ['New York', 'Washington'] 


Washington -> ['Atlanta', 'Miami', 'Detroit', 'Philadelphia'] 
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超级 高 铁 的 速度 太 快 了 ,因此 若 要 优化 某 两 个 站 点 间 的 行进 时 间 , 站 点 间 的 距离 可 能 就 不 太 
重要 了 ,而 更 重要 的 是 两 站 之 间 的 跳 数 (需要 经 过 多 少 个 站 点 )。 每 个 站 点 都 可 能 会 有 中 途 停留 ， 














所 以 就 像 乘坐 飞机 一 样 ， 中 途 停留 的 站 点 越 少 越 好 。 








在 图 论 中 ， 连 接 两 个 顶点 的 一 系列 边 被 称 为 路 径 ( path )。 换 句 话说， 路 径 是 从 一 个 顶点 到 
另 一 个 顶点 的 行进 方案 。 在 超级 高 铁 网 络 中 ,一 系列 管道 ( 边 ) 代表 从 一 个 城市 (顶点 ) 到 另 一 
个 城市 (顶点 ) 的 路 径 。 用 图 解决 的 最 常见 问题 之 一 就 是 查找 顶点 间 的 最 优 路 径 。 





























就 像 同 一 枚 硬币 的 男 一 面 。 正 如 获取 边 的 列表 一 样 ， 找 出 边 所 连接 的 项 点， 留 下 顶点 列表 并 





日 边 依次 连接 起 来 的 顶点 列表 可 以 被 非 正式 地 视 作 路 径 。 这 种 描述 实际 上 只 是 换 了 种 说 法 ， 





T、 


巴 边 











的 数据 去 掉 。 在 以 下 简短 示例 中 ， 我 们 将 会 找到 连接 超级 高 铁 网 络 中 两 个 城市 的 这 种 顶点 列表 。 





重 温 广度 优先 搜索 








在 无 权 图 中 ,查找 最 短路 径 意味 着 要 找到 起 始 顶 点 和 目标 项 点 之 间 边 最 少 的 路 径 。 若 要 构建 











超级 高 铁 网 络 ,或 许 首先 连接 相距 最 远 而 人 口 密集 的 海滨 城市 会 很 有 意义 。 这 就 提出 了 一 个 问 
“Boston 和 Miami 之 间 的 最 短路 径 是 什么 ? ” 








提示 “本 节 假 定 你 已 阅读 过 第 2 章 。 在 继续 阅读 之 前 ， 请 确保 你 已 熟悉 第 2 章 中 有 关 广 度 优先 搜索 
的 内 容 。 











题 : 


幸好 我 们 已 经 有 了 一 个 查找 最 短路 径 的 算法 , 求解 本 章 问题 时 拿 来 复 用 即 可 。 第 2 章 中 介绍 
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的 求解 迷宫 问题 的 广度 优先 搜索 算法 对 图 也 同样 适用 .事实 上 ,第 2 章 中 处 理 的 迷宫 其 实 就 是 图 。 


顶点 就 是 迷宫 中 的 位 置 , 边 则 是 可 以 由 一 个 位 置 移动 到 另 一 个 位 置 的 路 线 。 在 无 权 图 中 , 广度 优 
先 搜索 将 会 找到 任意 两 个 顶点 之 间 的 最 短路 径 。 


第 2 章 中 的 广度 优先 搜索 代码 可 以 拿 来 复 用 ， 以 处 理 Graph。 事 实 上 ， 不 用 做 任何 改动 即 
可 复 用 。 这 正 是 编写 通用 代码 的 威力 ! 

回想 一 下 ,第 2 章 中 的 bfs () 需要 3 个 参数 : 初始 状态 、 用 于 测试 目标 状态 的 Callable 
( 类 似 于 读 函数 的 对 象 )、 用 于 查找 给 定 状 态 的 后 续 状 态 的 Callable。 初 始 状态 将 是 由 字符 串 











“Boston” 表 示 的 顶点 。 目 标 测试 对 象 将 是 检查 顶点 是 否 等 于 “Miami” 的 lambda 表达 式 。 最 后 
可 以 用 Graph 的 neighbors for vertex() 方 法 生成 后 续 顶 点 。 


考虑 到 超级 高 铁 计 划 的 特点 , 我 们 可 以 在 graph.py 主体 部 分 的 末尾 添加 一 些 代 码 , 以 实现 在 
city graph 上 找到 Boston 和 Miami 之 间 的 最 短路 径 。 具 体 代 码 如 代码 清单 4-5 所 示 。 


注意 ”在 代码 清单 4-5 +, bfs、Node 和 node to path 是 从 Chapter2 包 的 generic search 
模块 导入 的 。 为 此 ，graph.py 的 上 一 级 目录 将 被 添加 到 Python 的 搜索 路 径 (' ..') 中 。 因 为 本 书 
尺码 库 的 结构 是 把 每 章 都 放 入 了 各 自 的 目录 中 ， 所 以 才 需 要 如 此 ， 此 时 的 目录 结构 大 致 是 
Book->Chapter2->generic_search.py 和 Book-> Chapter4-> graph.py. 如 果 你 的 目录 结构 明显 不 是 如 此 ， 
则 需要 找到 一 种 方法 把 generic_search.py 添加 到 路 径 中 ， 并 且 可 能 需要 修改 一 下 import 语句 。 实 
在 不 行 的 话 ， 只 需 将 generic_search.py 复制 到 包含 graph.py 的 同一 目录 下 即 可 ， 并 把 import 语句 
修改 为 from generic search import bfs, Node, node to path, 





























代码 清单 4-5 graph.py ( 2) 


# Reuse BFS from chapter 2 on city graph 
import sys 
sys.path.insert(0, '..') # so we can access the Chapter2 package in the parent directory 


from Chapter2.generic_ search import bfs, Node, node to path 


bfs result: Optional[Node[V]] = bfs("Boston", lambda x: x == "Miami", 
city graph.neighbors for vertex) 
if bfs_result is None: 
print ("No solution found using breadth-first search!") 
else: 
path: List[V] = node_to_path(bfs_result) 
print ("Path from Boston to Miami:") 


print (path) 
输出 结果 应 该 如 下 所 示 : 


Path from Boston to Miami: 


['Boston', 'Detroit', 'Washington', 'Miami'] 
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这 里 考虑 的 是 边 的 数量 ， 从 Boston 到 Detroit， 然 后 到 Washington， 再 到 Miami， 由 这 3 条 
边 构成 了 最 短路 径 。 图 4-4 高 亮 显 示 了 这 条 路 径 。 
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图 4-4 ”根据 边 的 数量 ， 高 亮 显示 Boston 和 Miami 之 间 的 最 短路 径 
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假设 我 们 要 把 所 有 15 个 最 大 的 MSA 都 连 和 超级 高 铁 网 络 , 目标 是 要 最 大 限度 地 降低 网 络 的 
铺设 成 本 , 于 是 就 意味 着 所 用 的 轨道 数量 要 最 少 。 于 是 问题 就 成 了 : 如 何 用 最 少 的 轨道 连接 所 有 
MSA? 
































4.4.1 权重 的 处 理 


要 了 人 解 建造 某 条 边 所 需 的 轨道 数量 ， 就 需要 知道 这 条 边 表示 的 距离 。 现 在 是 再 次 引入 
权重 概念 的 时 候 了 。 在 超级 高 铁 网 络 中 , 边 的 权重 是 两 个 所 连 MSA 之 间 的 距离 。 图 4-5 与 
图 4-2 几乎 相同 ， 差 别 只 是 每 条 边 多 了 权重 ， 表 示 边 所 连 的 两 个 顶点 之 间 的 距离 〈( 以 英里 
为 单位 )。 

为 了 处 理 权 重 , 需 要 建立 Edge IN 2K WeightedEdge 和 Graph 的 子 类 WeightedGraph。 
每 个 WeightedqEdge 都 带 有 一 个 与 其 关联 的 表示 其 权重 的 float 类 型 数据 。 下 面 马 上 就 会 介绍 
Jarnik 算法 , 它 能 够 比较 两 条 边 并 确定 哪 条 边 权 重 较 低 。 采用 数值 型 的 权重 就 很 容易 进行 比较 了 。 
具体 代码 如 代码 清单 4-6 所 示 。 
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， 权 重 代表 两 个 MSA 之 间 的 距离 ， 单 位 英里 ( 1 RB ~1.6093 km ) 











图 4-5 ”美国 15 个 最 大 的 MSA 的 加 权 
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代码 清单 4-6 weighted_edge.py 





from future import annotations 
from dataclasses import dataclass 


from edge import Edge 


@dataclass 
class WeightedEdge (Edge): 
weight: float 


def reversed(self) -> WeightedEdge: 
return WeightedEdge(self.v, self.u, self.weight) 


# so that we can order edges by weight to find the minimum weight edge 
def 1t (self, other: WeightedEdge) -> bool: 


return self.weight<other.weight 


def str (self) -> str: 


return f"{self.u} {self.weight}> {self.v}" 


WeightedEdge 的 实现 代码 与 Edge 的 实现 代码 并 没有 太 大 的 区 别 ， 只 是 添加 了 一 个 
weight RHE, 并 通过 ”1t OMT “<” RE, 这 样 两 个 WeightedEqge 就 可 以 相互 比 
BET. "<” 操 作 符 只 涉及 权重 〈 而 不 涉及 继承 而 来 的 属性 u 和 v )， 因 为 Jarnfk 的 算法 只 关注 如 
何 找 到 权重 最 小 的 边 。 
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如 代码 清单 4-7 所 示 ，WeightedGraph 从 Graph 继承 了 大 部 分 功能 ， 此 外 ， 它 还 包含 了 
init 方法 和 添加 weightedEdge 的 便捷 方法 , HERAT ACH str ONA ER 
有 一 个 新 方法 neighbors for index with weights () ， 这 一 方法 不 仅 会 返回 每 一 位 邻居 ， 
还 会 返回 到 达 这 位 邻居 的 边 的 权重 。 这 一 方法 对 其 ”str _() 十 分 有 用 。 


代码 清单 4-7 weighted_graph.py 


from typing import TypeVar, Generic, List, Tuple 











from graph import Graph 
from weighted edge import WeightedEdge 


V = TypeVar('V') # type of the vertices in the graph 


class WeightedGraph(Generic[V], Graph[V]): 


def init (self, vertices: List[V] = []) -> None: 
self. vertices: List[V] = vertices 
self. edges: List[List[WeightedEdge]] = [[] for _ in vertices] 


def add_edge by indices(self, u: int, v: int, weight: float) -> None: 
edge: WeightedEdge = WeightedEdge(u, v, weight) 


self.add_edge(edge) # call superclass version 


def add_edge by vertices(self, first: V, second: V, weight: float) -> None: 
u: int = self. vertices.index(first) 
v: int = self. vertices.index (second) 


self.add edge by indices(u, v, weight) 


def neighbors for index with weights(self, index: int) -> List[Tuple[V, float]]: 





distance tuples: List[Tuple[V, float]] = [] 
for edge in self.edges for index (index): 
distance _tuples.append((self.vertex_at(edge.v), edge.weight) ) 


return distance tuples 


def str (self) -> str: 
dési str = 
for i in range(self.vertex count): 
desc += £"{self.vertex_at(i)} -> {self.neighbors for index with weights (i) }\n" 


return desc 


现在 可 以 实际 定义 加 权 图 了 。 这 里 将 会 用 到 图 4-5 表示 的 加 权 图 ， 名 为 city_graph2。 具 
体 代 码 如 代码 清单 4-8 所 示 。 
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if name == "_main_": 


city graph2: WeightedGraph[str] = WeightedGraph(["Seattle", "San Francisco", 
"Los Angeles", "Riverside", "Phoenix", "Chicago", "Boston", "New York", "Atlanta", 
"Miami", "Dallas", "Houston", "Detroit", "Philadelphia", "Washington" ] ) 

city graph2.add_edge by vertices ("Seattle", "Chicago", 1737) 

city graph2.add_edge by vertices ("Seattle", "San Francisco", 678) 

city graph2.add_edge by vertices("San Francisco", "Riverside", 386) 

city graph2.add_edge by vertices("San Francisco", "Los Angeles", 348) 

city graph2.add_edge by vertices("Los Angeles", "Riverside", 50) 

city graph2.add_edge by vertices("Los Angeles", "Phoenix", 357) 

city graph2.add_edge by vertices ("Riverside", "Phoenix", 307) 

city graph2.add_edge by vertices ("Riverside", "Chicago", 1704) 

city graph2.add_edge by vertices ("Phoenix", "Dallas", 887) 

city graph2.add_edge by vertices ("Phoenix", "Houston", 1015) 

city graph2.add_edge by vertices("Dallas", "Chicago", 805) 

city graph2.add_edge by vertices("Dallas", "Atlanta", 721) 

city graph2.add_edge by vertices("Dallas", "Houston", 225) 

city graph2.add_edge by vertices ("Houston", "Atlanta", 702) 

city graph2.add_edge by vertices ("Houston", "Miami", 968) 

city graph2.add_edge by vertices ("Atlanta", "Chicago", 588) 

city graph2.add_edge by vertices ("Atlanta", "Washington", 543) 

city graph2.add_edge by vertices ("Atlanta", "Miami", 604) 

city graph2.add_edge by vertices ("Miami", "Washington", 923) 

city graph2.add_edge by vertices ("Chicago", "Detroit", 238) 

city graph2.add_edge by vertices ("Detroit", "Boston", 613) 

city graph2.add_edge by vertices ("Detroit", "Washington", 396) 


city graph2.add_edge by vertices ("Detroit", "New York", 482) 





city graph2.add_edge by vertices ("Boston", "New York", 190) 


city graph2.add_edge by vertices ("New York", "Philadelphia", 81) 














city graph2.add_edge by vertices ("Philadelphia", "Washington", 123) 


print (city graph2) 


因为 WeightedGraph XIAP str__(), ， 所 以 我 们 可 以 美观 打印 出 city_graph2。 在 
输出 结果 中 会 同时 显示 每 个 顶点 连接 的 所 有 顶点 及 这 些 连接 的 权重 。 





Seattle -> [('Chicago', 1737), ('San Francisco', 678)] 

San Francisco -> [('Seattle', 678), ('Riverside', 386), ('Los Angeles', 348)] 

Los Angeles -> [('San Francisco', 348), ('Riverside', 50), ('Phoenix', 357) ] 

Riverside -> [('San Francisco', 386), ('Los Angeles', 50), ('Phoenix', 307), ('Chicago', 
1704) ] 


Phoenix -> [('Los Angeles', 357), ('Riverside', 307), ('Dallas', 887), ('Houston', 1015) ] 
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Chicago -> [('Seattle', 1737), ('Riverside', 1704), ('Dallas', 805), ('Atlanta', 588), 
('Detroit', 238) ] 


Boston -> [('Detroit', 613), ('New York', 190)] 

New York -> [('Detroit', 482), ('Boston', 190), ('Philadelphia', 81)] 

Atlanta -> [('Dallas', 721), ('Houston', 702), ('Chicago', 588), ('Washington', 543), 
('Miami', 604) ] 

Miami -> [('Houston', 968), ('Atlanta', 604), ('Washington', 923) ] 

Dallas -> [('Phoenix', 887), ('Chicago', 805), ('Atlanta', 721), ('Houston', 225) ] 

Houston -> [('Phoenix', 1015), ('Dallas', 225), ('Atlanta', 702), ('Miami', 968) ] 


Detroit -> [('Chicago', 238), ('Boston', 613), ('Washington', 396), ('New York', 482) ] 
Philadelphia -> [('New York', 81), ('Washington', 123) ] 
Washington -> [('Atlanta', 543), ('Miami', 923), ('Detroit', 396), ('Philadelphia', 123) ] 


44.2 查找 最 小 生成 树 


树 是 一 种 特殊 的 图 , 它 在 任意 两 个 顶点 之 间 只 存在 一 条 路 径 , 这 意味 着 树 中 没有 环 路 ( cycle ), 
有 时 被 称 为 无 环 ( acyclic )。 环 路 可 以 被 视 作 循环 。 如 果 可 以 从 一 个 起 始 顶 点 开始 遍历 图 ， 不 会 
重复 经 过 任何 边 , 并 返回 到 起 始 项 点 , 则 称 存在 一 条 环 路 。 任 何不 是 树 的 图 都 可 以 通过 修剪 边 而 
成 为 树 。 图 4-6 演示 了 通过 修剪 边 把 图 转换 为 树 的 过 程 。 


























A C A C 
(a) (b) 
图 4-6 ”在 左 图 中 ， 在 顶点 B、C 和 D 之 间 存 在 一 个 环 路 ， 因 此 它 不 是 树 。 在 右 图 中 ， 
连通 C M D 的 边 已 被 修剪 掉 了 ， 因 此 它 是 一 棵 树 



























































连通 图 (connected graph ) 是 指 从 图 的 任 一 顶点 都 能 以 某 种 路 径 到 达 其 他 任何 顶点 的 图 。 本 
章 中 的 所 有 图 都 是 连通 图 。 生 成 树 (spanning tree) 是 把 图 所 有 顶点 都 连接 起 来 的 树 。 最 小 生成 
树 (minimum spanning tree ) 是 以 最 小 总 权重 把 加 权 图 的 每 个 顶点 都 连接 起 来 的 树 〈 相对 于 其 他 
的 生成 树 而 言 )。 对 于 每 张 加 权 图 ， 我 们 都 能 高 效 地 找到 其 最 小 生成 树 。 

这 里 出 现 了 一 大 堆 术 语 !“ 查 找 最 小 生成 树 ” 和 “以 权重 最 小 的 方式 连接 加 权 图 中 的 所 有 项 
点 ”的 意思 相同 ,这 是 关键 点 。 对 任何 设计 网 络 ( 交通 网 络 、 计 算 机 网 络 等 ) 的 人 来 说 ， 这 都 是 
一 个 重要 而 实际 的 问题 : 如 何 能 以 最 低 的 成 本 连接 网 络 中 的 所 有 节点 呢 ? 这 里 的 成 本 可 能 是 电 
线 、 轨 道 、 道 路 或 其 他 任何 东西 。 以 电话 网 络 来 说 ， 这 个 问题 的 另 一 种 提 法 就 是 : 连通 每 个 电话 
机 所 需要 的 最 短 电缆 长 度 是 多 少 ? 
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1. 重 温 优先 队列 


优先 队列 在 第 2 章 中 已 经 介绍 过 了 。Jarnfk 算法 将 需要 用 到 优先 队列 。 我 们 可 以 从 第 2 
章 的 程序 包 中 导入 PriorityQueue 类 ， 要 获得 详情 请 参阅 紧 挨 着 代码 清单 4-5 之 前 的 注意 
事项 , 也 可 以 把 该 类 复制 为 一 个 新 文件 并 放 入 本 章 的 程序 包 中 。 为 完整 起 见 , 在 代码 清单 4-9 
中 ， 我 们 将 重新 创建 第 2 章 中 的 Priorityoueue， 这 里 假定 import 语句 会 被 放 入 单独 的 
文件 中 。 


代码 清单 4-9 priority_queue.py 


from typing import TypeVar, Generic, List 





from heapq import heappush, heappop 
T = TypeVar('T') 


class PriorityQueue (Generic[T]): 
def init (self) -> None: 


self. container: List[T] = [] 


@property 
def empty(self) -> bool: 


return not self. container # not is true for empty container 


def push(self, item: T) -> None: 


heappush(self. container, item) # in by priority 


def pop (self) -> T: 


return heappop (self. container) # out by priority 


def repr (self) -> str: 


return repr (self. container) 


2. 计算 加 权 路 径 的 总 权重 


在 开发 查找 最 小 生成 树 的 方法 之 前 ， 我 们 需要 开发 一 个 用 于 检测 某 个 解 的 总 权重 的 画 
数 。 最 小 生成 树 问 题 的 解 将 由 组 成 树 的 加 权 边 列表 构成 。 首 先 ， 我们 会 将 WeightedPath 
定义 为 WeightedEdge 的 列表 ， 然 后 会 定义 一 个 total weight () 图 数 ， 该 函数 以 
WeightedPath 的 列表 为 参数 并 把 所 有 边 的 权重 相 加 ， 以 便 得 到 总 权重 。 具 体 代码 如 代码 
清单 4-10 所 示 。 
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代码 清单 4-10 mst.py 


from typing import TypeVar, List, Optional 
from weighted graph import WeightedGraph 
from weighted edge import WeightedEdge 


from priority queue import PriorityQueue 


V = TypeVar('V') # type of the vertices in the graph 
WeightedPath = List[WeightedEdge] # type alias for paths 


def total weight (wp: WeightedPath) -> float: 


return sum([e.weight for e in wp]) 


3. Jarnik 算法 














查找 最 小 生成 树 的 Jarnik 算法 把 图 分 为 两 部 分 : 正在 生成 的 最 小 生成 树 的 顶点 和 尚未 加 入 最 
小 生成 树 的 顶点 。 其 工作 步骤 如 下 所 示 。 

(1 ) 选择 要 被 包含 于 最 小 生成 树 中 的 任 一 顶点 。 

(2) 找到 连通 最 小 生成 树 与 尚未 加 入 树 的 顶点 的 权重 最 小 的 边 。 

(3 ) 将 权重 最 小 边 末端 的 顶点 添加 到 最 小 生成 树 中 。 

(4) 重复 第 2 步 和 第 3 步 ， 直 到 图 中 的 每 个 顶点 都 加 入 了 最 小 生成 树 。 


注意 Jarnik 算法 常 被 称 为 Prim 算法 。 在 20 世纪 20 年 代 末 ， 两 位 捷克 数学 家 OtakarBorivka 和 
VojtéchJamik 致力 于 尽量 降低 铺设 电线 的 成 本 ， 提 出 了 解决 最 小 生成 树 问题 的 算法 。 他 们 提出 的 算 
法 在 几 十 年 后 又 被 其 他 人 “重新 发 现 ””。 





























为 了 高 效 地 运行 Jamnik 算法 , 需要 用 到 优先 队列 。 每 次 将 新 的 顶点 加 入 最 小 生成 树 时 ， 所 有 
连接 到 树 外 顶点 的 出 边 都 会 被 加 入 优先 队列 中 。 从 优先 队列 中 弹出 的 一 定 是 权重 最 小 的 边 , 算法 





将 持续 运行 直至 优先 队列 为 空 为 止 。 这 样 就 确保 了 权重 最 小 的 边 一 定 会 优先 加 入 树 中 。 如 果 被 弹 
出 的 边 与 树 中 的 已 有 顶点 相连 ， 则 它 将 被 忽略 。 

代码 清单 4-11 中 的 mst O 完整 实现 了 Jarnfk 算法 ”, 它 还 带 了 一 个 用 来 打印 WeightedPath 
的 实用 函数 。 











警告 Jamik 算法 在 有 向 图 中 不 一 定 能 正常 工作 ， 它 也 不 适用 于 非 连 通 图 。 





























@ Helena Durnova 的 “OtakarBortivka (1899-1995) and the Minimum Spanning Tree” ( Institute of Mathematics 
of the Czech Academy of Sciences, 2006 )。 


@) 受到 RobertSedgewick 和 KevinWayne 的 《算法 (第 4 版 )》( 第 619 页 ) 的 启发 。 
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代码 清单 4-11 mst.py ( 续 ) 


def mst (wg: WeightedGraph[V], start: int = 0) -> Optional [WeightedPath]: 
if start > (wg.vertex_ count - 1) or start < 0: 


return None 


result: WeightedPath = [] # holds the final MST 
pq: PriorityQueue[WeightedEdge] = PriorityQueue() 
visited: [bool] = [False] * wg.vertex count # where we've been 


def visit(index: int): 
visited[index] = True # mark as visited 
for edge in wg.edges for index (index): 
# add all edges coming from here to pq 
if not visited[edge.v]: 


pq. push (edge) 
visit(start) # the first vertex is where everything begins 


while not pq.empty: # keep going while there are edges to process 
edge = pq.pop () 
if visited[edge.v]: 
continue # don't ever revisit 
# this is the current smallest, so add it to solution 
result.append (edge) 


visit (edge.v) # visit where this connects 
return result 


def print weighted path (wg: WeightedGraph, wp: WeightedPath) -> None: 
for edge in wp: 
print (£"{wg.vertex_at(edge.u)} {edge.weight}> {wg.vertex_at(edge.v) }") 
print (f£"Total Weight: {total_weight (wp) }") 


FAZAT — ii mst () 。 
def mst (wg: WeightedGraph[V], start: int = 0) -> Optional [WeightedPath]: 


if start > (wg.vertex_ count - 1) or start < 0: 


return None 
本 算法 将 返回 某 一 个 代表 最 小 生成 树 的 WeightedPath 对 象 。 运 算 本 算法 的 起 始 位 置 无 关 
紧要 ( 假定 图 是 连通 和 无 向 的 )， 因 此 默认 设 为 索引 为 0 的 顶点 。 如 果 start 无 效 ， 则 mst () 
返回 None。 
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result: WeightedPath = [] # holds the final MST 
pq: PriorityQueue[WeightedEdge] = PriorityQueue() 
visited: [bool] = [False] * wg.vertex count # where we've been 


result 将 是 最 终 存放 加 权 路 径 的 地 方 ， 也 即 包含 了 最 小 生成 树 。 随 着 权重 最 小 的 边 不 断 被 
弹出 以 及 图 中 新 的 区 域 不 断 被 遍历 ，WeightedEqdge 会 不 断 被 添加 到 result 中 。 因 为 Jarnik 
算法 总 是 选择 权重 最 小 的 边 ， 所 以 被 视 为 仿 禁 算法 (greedy algorithm) 之 一 。pq 用 于 存储 新 发 
现 的 边 并 弹出 次 低 权 重 的 边 。visited 用 于 记录 已 经 到 过 的 顶点 索引 ， 这 用 Set 也 可 以 实现 ， 
类 似 于 pfs () 中 的 explored, 

















def visit(index: int): 
visited[index] = True # mark as visited 
for edge in wg.edges for index (index): 
# add all edges coming from here 
if not visited[edge.v]: 
pq. push (edge) 
visit () 是 一 个 便于 内 部 使 用 的 函数 ， 用 于 把 顶点 标记 为 已 访问 ， 并 把 尚未 访问 过 的 顶点 
所 连 的 边 都 加 入 pq 中 。 不 妨 注意 一 下 ， 使 用 邻接 表 模 型 能 够 轻松 地 找到 属于 某 个 顶点 的 边 。 


visit(start) # the first vertex is where everything begins 


除非 图 是 非 连通 的 ， 和 否则 先 访问 哪个 顶点 是 无 所 谓 的 。 如 果 图 是 非 连通 的 ， 是 由 多 个 不 相连 的 
部 分 组 成 的 ， 那 么 mst () 返回 的 树 只 会 涵盖 图 的 某 一 部 分 ， 也 就 是 起 始 节 点 所 属 的 那 部 分 图 。 


while not pq.empty: # keep going while there are edges to process 







































































edge = pq.pop() 
if visited[edge.v]: 
continue # don't ever revisit 
# this is the current smallest, so add it 
result.append (edge) 


visit (edge.v) # visit where this connects 


return result 


















































只 要 优先 队列 中 还 有 边 存 在 ， 我 们 就 将 它们 弹出 并 检查 它们 是 否 会 引出 尚未 加 入 树 的 顶点 。 
因为 优先 队列 是 以 升序 排列 的 , 所 以 会 先 弹出 权重 最 小 的 边 。 这 就 确保 了 结果 确实 具有 最 小 总 权 
重 。 如 果 弹 出 的 边 不 会 引出 未 探索 过 的 项 点, 那么 就 会 被 忽略 ,否则 ， 因 为 该 条 边 是 目前 为 止 权 
重 最 小 的 边 ， 所 以 会 被 添加 到 结果 集中 ,并 且 对 其 引出 的 新 项 点 进行 探索 。 如 果 已 没有 边 可 供 探 





索 了 ， 则 返回 结果 。 

最 后 再 回 到 用 轨道 最 少 的 超级 高 铁 网 络 连 接 美国 15 个 最 大 的 MSA 的 问题 吧 。 结 果 路 径 就 是 
city_graph2 的 最 小 生成 树 。 下 面 尝试 对 city_graph2 运行 一 下 mst () ， 具 体 代 码 如 代码 
清单 4-12 所 示 。 
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代码 清单 4-12 mst.py ( 续 ) 


if name == "_main_": 








city graph2: WeightedGraph[str] = WeightedGraph(["Seattle", "San Francisco", "Los 
Angeles", "Riverside", "Phoenix", "Chicago", "Boston", "New York", "Atlanta", 


"Miami", "Dallas", "Houston", "Detroit", "Philadelphia", "Washington" ] ) 


city graph2.add_edge by vertices ("Seattle", "Chicago", 1737) 

city graph2.add_edge by vertices ("Seattle", "San Francisco", 678) 
city graph2.add_edge by vertices("San Francisco", "Riverside", 386) 
city graph2.add_edge by vertices("San Francisco", "Los Angeles", 348) 
city graph2.add_edge by vertices("Los Angeles", "Riverside", 50) 
city graph2.add_edge by vertices("Los Angeles", "Phoenix", 357) 
city graph2.add_edge by vertices ("Riverside", "Phoenix", 307) 
city graph2.add_edge by vertices ("Riverside", "Chicago", 1704) 
city graph2.add_edge by vertices ("Phoenix", "Dallas", 887) 

city graph2.add_edge by vertices ("Phoenix", "Houston", 1015) 

city graph2.add_edge by vertices("Dallas", "Chicago", 805) 

city graph2.add_edge by vertices("Dallas", "Atlanta", 721) 

city graph2.add_edge by vertices("Dallas", "Houston", 225) 

city graph2.add_edge by vertices ("Houston", "Atlanta", 702) 

city graph2.add_edge by vertices ("Houston", "Miami", 968) 

city graph2.add_edge by vertices ("Atlanta", "Chicago", 588) 

city graph2.add_edge by vertices ("Atlanta", "Washington", 543) 
city graph2.add_edge by vertices ("Atlanta", "Miami", 604) 

city graph2.add_edge by vertices ("Miami", "Washington", 923) 

city graph2.add_edge by vertices ("Chicago", "Detroit", 238) 

city graph2.add edge by vertices ("Detroit", "Boston", 613) 

city graph2.add_edge by vertices ("Detroit", "Washington", 396) 
city graph2.add_edge by vertices ("Detroit", "New York", 482) 

city graph2.add_edge by vertices ("Boston", "New York", 190) 


city graph2.add_edge by vertices ("New York", "Philadelphia", 81) 














city graph2.add_edge by vertices ("Philadelphia", "Washington", 123) 


result: Optional [WeightedPath] = mst (city graph2) 
if result is None: 

print ("No solution found!") 
else: 


print _weighted_path(city graph2, result) 
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好 在 有 美观 打印 方法 printweightedPath () ， 最 小 生成 树 的 可 读 性 很 不 错 。 


Seattle 678> San Francisco 
San Francisco 348> Los Angeles 
Los Angeles 50> Riverside 
Riverside 307> Phoenix 
Phoenix 887> Dallas 

Dallas 225> Houston 

Houston 702> Atlanta 

Atlanta 543> Washington 
Washington 123> Philadelphia 
Philadelphia 81> New York 
New York 190> Boston 
Washington 396> Detroit 
Detroit 238> Chicago 

Atlanta 604> Miami 

Total Weight: 5372 


换 名 话说， 这 是 加 权 图 中 连通 所 有 MSA 的 总 边 长 最 短 的 组 合 ， 至 少 需 要 轨道 8645 km. 
4-7 呈现 了 这 棵 最 小 生成 树 。 








Seattle € 






Boston 
@ New York 

@ Philadelphia 
© Washington 








San Francisco 





@ Riverside 


Phoe a ee, 


Dallas ~ 


Angeles 


Miami 


图 4-7 ”高 亮 的 边 代 表 连 通 全 部 15 个 MSA 的 最 小 生成 树 
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随 着 超级 高 铁 网 络 的 开 建 , 建造 商 不 大 可 能 有 雄心 一 次 就 实现 整个 国家 的 连通 。 他 们 可 能 希 
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望 最 大 限度 地 降低 在 主要 城市 之 间 铺 设 轨 道 的 成 本 ,将 超级 高 铁 网 络 延伸 至 某 个 城市 的 成 本 显然 
取决 于 从 哪里 开始 修建 。 

计算 从 某 个 起 点 城市 到 任 一 城市 的 成 本 是 一 种 “ 单 源 最 短路 径 ”( single-source shortest path ) 
问题 。 此 问题 可 以 表述 为 :“ 在 加 权 图 中 ， 从 某 个 顶点 到 其 他 每 个 顶点 的 最 短路 径 〈 以 边 的 总 权 
Hit) 是 什么 ? ” 











Dijkstra 算法 


Dijkstra 算法 能 解决 单 源 最 短路 径 问 题 。 只 要 给 定 一 个 起 始 项 点 ， 它 就 会 返回 抵达 加 权 图 中 
其 他 任 一 顶点 的 最 小 权重 路 径 ， 同 时 它 还 会 返回 从 起 始 顶 点 到 其 他 每 一 个 顶点 的 最 小 总 权重 。 











间 的 距离 ， 并 在 找到 更 短路 径 时 更 新 该 距离 值 。Dijkstra 算法 还 会 把 到 达 每 个 顶点 的 边 都 记录 下 
来 ， 就 像 广度 优先 搜索 一 样 。 
下 面 是 Dijkstra 算法 的 全 部 步骤 。 


C1) 将 起 始 顶 点 加 入 优先 队列 。 
(2) 从 优先 队列 中 弹出 距离 最 近 的 顶点 〈 一 开始 即 为 起 始 顶 点 )， 我 们 称 之 为 当前 顶点 。 
(3) 逐个 查看 连接 到 当前 顶点 的 所 有 邻居 。 如 果 之 前 这 些 顶 点 尚未 被 记录 过 , 或 者 到 这 些 顶 











点 的 边 给 出 了 新 的 最 短路 径 , 就 逐个 记录 它们 与 起 点 之 间 的 距离 以 及 产生 该 距离 的 边 , 并 把 新 顶 
点 加 入 优先 队列 。 

(4) 重复 第 2 步 和 第 3 步 ， 直 至 优先 队列 为 空 为 止 。 

(5 ) 返回 起 始 顶 点 与 每 个 顶点 之 间 的 最 短 距离 和 路 径 。 

Dijkstra 算法 的 代码 中 包含 一 个 简单 的 数据 结构 DijkstraNode, 用 于 记录 目前 已 探索 的 每 
个 顶点 相关 的 成 本 ,以 便 用 于 比较 。 这 类 似 于 第 2 章 的 Node 类 。 它 还 包含 几 个 实用 函数 ， 涉 及 
将 返回 的 距离 数组 转换 为 更 易于 按 顶 点 查找 的 结构 ， 以 及 用 dijkstra () 返回 的 路 径 字 典 计算 
出 到 指定 目标 顶点 的 最 短路 径 。 


言 归 正 传 ， 下 面 给 出 Dijkstra 算法 的 代码 ， 如 代码 清单 4-13 所 示 。 后 面 将 会 逐 行 过 一 遍 这 段 代 码 。 


代码 清单 4-13 dijkstra.py 


from future import annotations 

















from typing import TypeVar, List, Optional, Tuple, Dict 
from dataclasses import dataclass 

from mst import WeightedPath, print weighted path 

from weighted _graph import WeightedGraph 

from weighted edge import WeightedEdge 
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from priority queue import PriorityQueue 


V = TypeVar('V') # type of the vertices in the graph 


@dataclass 
class DijkstraNode: 
vertex: int 


distance: float 


def lit (self, other: DijkstraNode) -> bool: 


return self.distance < other.distance 


def eq (self, other: DijkstraNode) -> bool: 


return self.distance == other.distance 


def dijkstra(wg: WeightedGraph[V], root: V) -> Tuple[List [Optional [float]], Dict[int, 
WeightedEdge] ]: 
first: int = wg.index of(root) # find starting index 


# distances are unknown at first 


distances: List [Optional[float]] = [None] * wg.vertex count 
distances[first] = 0 # the root is 0 away from the root 

path dict: Dict[int, WeightedEdge] = {} # how we got to each vertex 
pq: PriorityQueue[DijkstraNode] = PriorityQueue() 


pq.push(DijkstraNode(first, 0) 


while not pq.empty: 
u: int = pq.pop().vertex # explore the next closest vertex 
dist_u: float = distances[u] # should already have seen it 
# look at every edge/vertex from the vertex in question 
for we in wg.edges for index(u): 
# the old distance to this vertex 
dist_v: float = distances[we.v] 
# no old distance or found shorter path 
if dist_v is None or dist _v > we.weight + dist_u: 
# update distance to this vertex 
distances[we.v] = we.weight + dist_u 
# update the edge on the shortest path to this vertex 
path_dict[we.v] = we 
# explore it soon 


pq.push (DijkstraNode(we.v, we.weight + dist_u)) 


return distances, path dict 
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# Helper function to get easier access to dijkstra results 
def distance array to vertex dict (wg: WeightedGraph[V], distances: List [Optional [float] ]) 





-> Dict[V, Optional[float]]: 
distance dict: Dict[V, Optional[float]] = {} 
for i in range(len(distances)): 
distance dict[wg.vertex_at(i)] = distances[i] 


return distance dict 


# Takes a dictionary of edges to reach each node and returns a list of 


# edges that goes from ‘start’ to ‘end. 


def path _dict_to_path(start: int, end: int, path dict: Dict[int, WeightedEdge]) -> 
WeightedPath: 
if len(path_dict) == 0: 
return [] 


edge path: WeightedPath = [] 
e: WeightedEdge = path _dict[end] 
edge_path.append (e) 
while e.u != start: 
e = path _dict[e.u] 
edge_path.append(e) 


return list (reversed(edge_ path) ) 


dijkstra () 的 前 几 行 用 到 了 我 们 熟悉 的 数据 结构 , 但 distances 除外 ， 它 是 从 root 到 





中 每 个 顶点 的 距离 的 占 位 符 。 最 初 所 有 这 些 距离 都 是 None， 因 为 我 们 尚 不 知道 这 些 距离 有 多 
长 ， 这 正 是 要 用 Dijkstra 算法 来 弄 清楚 的 事情 ! 


def dijkstra(wg: WeightedGraph[V], root: V) ->Tuple[List[Optional[float]], Dict[int, 
WeightedEdge] ]: 
first: int = wg.index of(root) # find starting index 


# distances are unknown at first 


distances: List [Optional[float]] = [None] * wg.vertex count 
distances[first] = 0 # the root is 0 away from the root 

path dict: Dict[int, WeightedEdge] = {} # how we got to each vertex 
pq: PriorityQueue[DijkstraNode] = PriorityQueue () 


pq.push (DijkstraNode(first, 0) 
第 一 个 压 入 优先 队列 的 节点 包括 根 顶 点 。 


while not pq.empty: 





u: int = pq.pop().vertex # explore the next closest vertex 


dist_u: float = distances[u] # should already have seen it 


Dijkstra 算法 将 持续 运行 , 直至 优先 级 队列 变 空 为 止 6u 是 我 们 正 要 搜索 的 当前 顶点 , dist_u 
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是 已 记录 下 来 的 沿 着 已 知 路 径 到 达 u 的 距离 。 当 前 探索 过 的 每 个 顶点 都 是 已 找到 的 , 因此 它们 必 
须 带 有 已 知 的 距离 。 
# look at every edge/vertex from here 
for we in wg.edges for index(u): 
# the old distance to this 
dist_v: float = distances[we.v] 
接 下 来 , 对 连接 到 u 的 每 条 边 进行 探索 。 dist_v 是 指 从 u 到 任何 已 知 与 u 有 边 相 连 的 顶点 
的 距离 。 


# no old distance or found shorter path 

if dist_v is None or dist V > we.weight + dist_u: 
# update distance to this vertex 
distances[we.v] = we.weight + dist_u 
# update the edge on the shortest path 
path_dict[we.v] = we 
# explore it soon 


pq.push (DijkstraNode(we.v, we.weight + dist_u)) 
ee (dist_v J None) 的 顶点 , 或 者 找到 一 条 新 的 、 更 短 的 
路 径 能 到 达 它 ， 就 会 记录 到 达 v 的 新 的 最 短 距离 和 到 达 那 里 的 边 。 最后, 我 们 把 新 发 现 路 径 到 达 
SOA 入 优先 队列 。 


return distances, path dict 


dijkstra () 返回 从 根 顶点 到 加 权 图 中 每 个 顶点 的 距离 , 以 及 能 够 揭示 到 达 这 些 顶 点 的 最 短 
路 径 的 Path_dqict。 

现在 我 们 可 以 放心 运行 Dijkstra 算法 了 。 我 们 先 从 Los Angeles 开始 测算 到 达 图 中 其 他 所 有 
MSA 的 距离 ， 然 后 就 会 找到 Los Angeles 和 Boston 之 间 的 最 短路 径 ， 最 后 ， 将 用 
print_weighted_path () 美 观 打印 出 结果 。 有 具体 代码 如 代码 清单 4-14 所 示 。 




















代码 清单 4-14 dijkstra.py ( 续 ) 


n 


3 


if _name_ == 
city_graph2: WeightedGraph[str] = WeightedGraph (["Seattle", "San Francisco", "Los 
Angeles", "Riverside", "Phoenix", "Chicago", "Boston", "New York", "Atlanta", 


"Miami", "Dallas", "Houston", "Detroit", "Philadelphia", "Washington"]) 


city graph2.add _edge_by_vertices ("Seattle", "Chicago", 1737) 
city graph2.add _edge_by_vertices ("Seattle", "San Francisco", 678) 


( 

( 
city graph2.add_edge by vertices("San Francisco", "Riverside", 386) 
city graph2.add_edge by vertices("San Francisco", "Los Angeles", 348) 
( 


city graph2.add_edge by vertices("Los Angeles", "Riverside", 50) 
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city graph2.add_edge by vertices("Los Angeles", "Phoenix", 357) 
city graph2.add_edge by vertices ("Riverside", "Phoenix", 307) 
city graph2.add_edge by vertices ("Riverside", "Chicago", 1704) 


city graph2.add_edge by vertices ("Phoenix", "Dallas", 887) 


city graph2.add_edge_ by vertices ("Phoenix", "Houston", 1015) 
city graph2.add_edge by vertices("Dallas", "Chicago", 805) 
city graph2.add_edge by vertices("Dallas", "Atlanta", 721) 
city graph2.add_edge by vertices("Dallas", "Houston", 225) 
city graph2.add edge by vertices ("Houston", "Atlanta", 702) 
city graph2.add_edge by vertices ("Houston", "Miami", 968) 


city graph2.add_edge by vertices ("Atlanta", "Chicago", 588) 
city graph2.add_edge by vertices ("Atlanta", "Washington", 543) 
city graph2.add_edge by vertices ("Atlanta", "Miami", 604) 

city graph2.add_edge by vertices ("Miami", "Washington", 923) 
city graph2.add_edge by vertices ("Chicago", "Detroit", 238) 
city graph2.add_edge by vertices ("Detroit", "Boston", 613) 


city graph2.add_edge_ by vertices ("Detroit", "Washington", 396) 

















city graph2.add_edge by vertices ("Detroit", "New York", 482) 

city graph2.add_edge by vertices ("Boston", "New York", 190) 

city graph2.add_edge by vertices ("New York", "Philadelphia", 81) 
city graph2.add_edge by vertices ("Philadelphia", "Washington", 123) 


distances, path dict = dijkstra(city_graph2, "Los Angeles") 





name distance: Dict[str, Optional[int]] = distance array to vertex dict (city graph2, 





distances) 

print ("Distances from Los Angeles:") 

for key, value in name distance.items(): 
print (f"{key} : {value}") 

print("") # blank line 


print ("Shortest path from Los Angeles to Boston:") 
path: WeightedPath = path dict to path(city graph2.index of ("Los Angeles"), city_ 

graph2.index of ("Boston"), path dict) 
print weighted path (city graph2, path) 


输出 应 该 会 如 下 所 示 : 


Distances from Los Angeles: 
Seattle : 1026 

San Francisco : 348 

Los Angeles : 0 

Riverside : 50 

Phoenix : 357 
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Chicago : 1754 
Boston : 2605 

New York : 2474 
Atlanta : 1965 
Miami : 2340 

Dallas : 1244 
Houston : 1372 
Detroit : 1992 
Philadelphia : 2511 
Washington : 2388 


Shortest path from Los Angeles to Boston: 
Los Angeles 50> Riverside 

Riverside 1704> Chicago 

Chicago 238> Detroit 

Detroit 613> Boston 

Total Weight: 2605 


或 许 大 家 已 经 注意 到 了 ，Dijkstra 算法 与 Jarnfk 算法 有 一 些 相似 之 处 。 它 们 都 
如 果 有 人 动力 十 足 ， 完 全 可 以 用 相当 类 似 的 代码 去 实现 它们 。 另 一 个 与 Dijkstra 类 似 的 算法 是 第 
2 章 中 讲 过 的 A* 算 法 。A* 算 法 可 以 被 认为 是 对 Dijkstra 算法 的 改进 。 这 两 种 算法 都 一 样 , 加 入 启 





发 式 信息 并 将 Dijkstra 算法 限定 为 查找 单个 目标 。 

















注意 Dijkstra 算法 是 为 具有 正 权 重 的 图 设计 的 。 对 Dijkstra 算法 而 言 ， 边 的 权重 为 负 
挑战 ， 因 此 需要 做 出 相应 修改 或 换 用 别 的 算法 .。 
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是 一 个 


现实 世界 中 有 大 量 问 题 都 可 以 图 来 表示 。 本章 已 经 介绍 了 图 能 高 效 地 解决 交通 网 络 问题 ,而 








很 多 其 他 类 型 的 网 络 都 有 同样 的 重要 优化 问题 : 电话 网 络 、 计 算 机 网 络 和 公用 如 
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电力 、 供 水 





等 ) 网 络 。 因 此 ， 图 算法 对 于 提高 电信 、 航 运 、 交 通 和 公用 事业 行业 的 效率 至 关 重 要 。 














零售 商 必须 处 理 复杂 的 配送 问题 。 商 店 和 仓库 可 以 被 视 作 顶 点 , 它们 之 间 的 距离 就 是 边 。 算 
法 是 一 样 的 。 互 联网 本 身 就 是 一 个 巨大 的 图 ,每 个 连 网 的 设备 都 是 一 个 顶点 , 每 个 有 线 或 无 线 连 
接 就 是 一 条 边 。 最 小 生成 树 和 最 短路 径 问 题 的 求解 方案 不 仅 可 以 用 于 游戏 , 而 且 对 于 企业 节省 燃 
料 或 者 电线 也 同样 适用 。 有 一 些 世 界 著名 的 品牌 企业 通过 优化 图 问题 的 解法 而 获得 了 成 功 , 沃 尔 
玛 构 建 了 一 个 高 效 的 配送 网 络 , 谷歌 为 整个 互联 网 (一 张 巨大 的 图 ) 建立 了 索引 ,联邦 快递 找到 






























































了 一 系列 能 够 连通 世界 所 有 地 址 的 中 转 枢 纽 。 











图 算法 的 一 些 显 而 易 见 的 应 用 是 社交 网 络 和 地 图 的 应 用 。 在 社交 网 络 中 ， 人 就 是 顶点， 而 关 
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系 〈 例 如 Facebook 的 朋友 圈 ) 就 是 边 。 事 实 上 ，Facebook 的 最 著名 的 开发 者 工具 之 一 就 被 称 为 
Graph API。 在 Apple Maps 和 Google Maps 等 地 图 应 用 中 ， 图 算法 用 于 指明 方向 和 计算 行程 所 需 
的 时 间 。 

有 一 些 流行 的 视频 游戏 也 明确 用 到 了 图 算法 。MiniMetro 和 Ticket to Ride 就 是 与 本 章 所 解 问 
题 密切 相关 的 两 个 游戏 示例 。 





4] 习题 


1. 请 给 图 的 框架 代码 添加 边 和 顶点 的 移 除 功 能 。 

2. 请 给 图 的 框架 代码 添加 对 有 向 图 的 支持 功能 。 

3. 用 本 章 的 图 框架 证 明 或 反驳 经 典 的 柯 尼斯 堡 七 桥 问题 ( Bridges of Königsberg ), 参见 对 
应 的 维基 百科 词 条 。 
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日 常 的 编程 问题 不 会 用 到 遗传 算法 (genetic algorithm )。 当 传统 的 算法 不 足以 在 合理 的 时 间 
内 找到 问题 的 解 时 ,不妨 求助 于 遗传 算法 。 换 句 话说 ,遗传 算法 通常 留待 问题 复杂 且 没 有 简单 解 
法 时 才 会 使 用 。 如 果 要 了 解 这 些 复 杂 的 问题 可 能 会 是 什么 , 不 妨 先 阅读 5.7 节 后 再 回来 继续 。 一 个 
很 有 意思 的 例子 是 蛋白 质 配 体 停 靠 和 药物 设计 。 计 算 生 物 学 家 需要 设计 出 能 够 与 受 体 结合 的 分 子 ， 
以 便 生成 药物 。 对 于 设计 特定 分 子 可 能 没有 什么 明确 的 算法 可 用 , 但 大 家 会 看 到 , 在 对 目标 问题 的 
定义 之 外 没有 太 多 方向 的 情况 下 ， 有 了 时候 用 遗传 算法 可 以 给 出 一 个 答案 。 



























































51 生物 学 背景 知识 


在 生物 学 中 , 进化 论 解 释 了 基因 突变 与 环境 约束 一 起 , 如 何 导致 生物 随时 间 的 推移 而 发 生变 
化 (包括 物种 的 形成 一 一 新 物种 的 产生 )。 适 应 能 力 强 的 生物 获得 成 功 ， 适 应 能 力 弱 的 生物 走向 
失败 ， 这 种 机 制 被 称 为 自然 选择 (natural selection ) 每 一 代 物 种 将 包含 带 有 差异 特性 (有 了 时 是 新 
特性 ) 的 个 体 , 这 些 差异 特性 是 通过 基因 突变 产生 的 。 为 了 生存 , 所 有 个 体 都 要 竞争 有 限 的 资源 ， 
因为 个 体 数量 超过 了 资源 的 供给 ， 所 以 有 一 些 个 体 必须 牺牲 。 
带 有 变异 基因 的 个 体 更 适 于 生存 , 生存 和 繁殖 的 概率 会 更 高 。 随 着 时 间 的 推移 , 一 定 环境 下 
应 能 力 更 强 的 个 体 将 有 更 多 的 后 代 , 并 通过 遗传 将 变异 传 给 这 些 后 代 。 因 此 , 利于 生存 的 变异 
终 可 能 在 种 群 中 发 展 壮大 。 
举 个 例子 , 如 果 细 菌 会 被 某 种 抗生素 杀 死 ,而 细菌 种 群 中 有 某 个 细菌 带 有 对 抗生素 更 具 抵 抗 
力 的 基因 变异 , 则 它 更 有 可 能 存活 并 繁殖 下 去 。 如 果 随 着 时 间 的 推移 不 断 施 用 抗生素 ， 则 那些 遗 
传 了 抵抗 抗生素 基因 的 细菌 的 后 代 将 更 有 可 能 繁殖 并 拥有 自己 的 后 代 。 因 为 抗生素 的 持续 攻击 会 
杀 死 没有 变异 的 个 体 ， 所 以 最 终 整 个 种 群 都 可 能 会 带 有 变异 。 抗 生 素 不 会 导致 变异 的 发 展 , 但 它 
确实 会 导致 变异 个 体 的 增殖 。 
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自然 选择 理论 已 在 生物 学 以 外 的 领域 得 到 应 用 。 社 会 达尔 文 主义 ( Social Darwinism ) 就 是 
应 用 于 社会 理论 领域 的 自然 选择 。 在 计算 机 科学 中 ,遗传 算法 是 对 自然 选择 的 模拟 ， 用 来 应 对 计 
算 科学 领域 的 挑战 。 

遗传 算法 包含 了 名 为 染色 体 (chromosome ) 的 个 体 组 成 的 种 群 。 所 有 染色 体 都 要 竞争 解决 一 
些 问题 ， 每 条 染色 体 都 由 定义 其 特性 的 基因 组 成 。 染 色 体 解决 问题 的 能 力 由 适应 度 函 数 ( fitness 
function ) 定义 。 

遗传 算法 要 经 历 很 多 代 ( generation )。 在 每 一 代 中 ， 适 应 力 较 强 的 染色 体 更 有 可 能 被 选中 进 
行 繁 殖 。 每 一 代 中 还 有 可 能 发 生 两 条 染色 体 的 基因 合并 ， 这 被 称 为 交换 (crossover )。 此 外 ， 每 
一 代 都 有 一 种 重要 的 可 能 性 ， 即 染色 体 中 的 基因 可 能 会 随机 发 生变 异 (mutate )。 

当 种 群 中 某 些 个 体 的 适应 度 函 数 超过 某 个 指定 国 值 后 ， 或 者 算法 运行 了 指定 数量 的 代 之 后 ， 
将 会 返回 表现 最 佳 的 个 体 〈 适应 度 函 数 中 得 分 最 高 的 个 体 )。 

遗传 算法 并 不 是 解决 所 有 问题 的 好 办 法 。 它 们 依赖 3 种 部 分 或 完全 随机 的 操作 : 选择 、 交 换 
和 变异 。 因 此 ,它们 可 能 无 法 在 合理 的 时 间 内 找到 最 优 解 。 对 大 多 数 问题 而 言 ， 更 具 确 定性 的 算 
法 会 更 有 保证 , 但 是 有 些 问题 不 存在 快速 的 确定 性 算法 ,在 这 些 情 况 下 ， 遗传 算法 就 是 一 个 不 错 
的 选择 。 














52 通用 的 遗传 算法 


遗传 算法 通常 是 高 度 专 用 的 , 需要 针对 特定 应 用 进行 调 优 。 在 本 童 中 , 我们 将 定义 一 种 通用 
的 遗传 算法 , 该 算法 适用 于 多 种 问题 , 且 示 针对 其 中 任意 一 类 问题 进行 专门 的 调 优 。 虽然 它 会 包 
含 一 些 可 配置 的 选项 ,但 目标 仍 是 为 了 演示 算法 的 基本 原理 而 不 是 可 调 优 的 程度 。 

首先 我 们 将 定义 一 个 接口 ， 以 便 定义 该 通用 算法 能 够 操作 的 个 体 。 抽 象 类 Chromosome 定 
义 了 4 种 基本 特征 。 娄 色 体 必须 能 够 实现 以 下 几 个 功能 。 

图 确定 自己 的 适应 度 。 

m 创建 一 个 携带 了 随机 选中 基因 的 实例 ( 用 于 填充 第 一 代 个 体 的 数据 )。 

m 实现 交换 ， 即 让 自己 与 另 一 个 同类 结合 并 创建 后 代 ， 换 名 话说 ， 就 是 使 自己 与 另 一 条 染 

色 体 混合 。 
量变 异 一 一 让 自己 的 体内 数据 发 生 相 当 随 机 的 小 变化 。 
代码 清单 5-1 中 给 出 了 实现 上 述 4 个 功能 的 Chromosome 代码 。 
































代码 清单 5-1 chromosome.py 


from future import annotations 


from typing import TypeVar, Tuple, Type 
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from abc import ABC, abstractmethod 
T = TypeVar('T', bound='Chromosome') # for returning self 


# Base class for all chromosomes; all methods must be overridden 
class Chromosome (ABC): 

@abstractmethod 

def fitness(self) -> float: 


@classmethod 
@abstractmethod 
def random_instance(cls: Type[T]) -> T: 


@abstractmethod 
def crossover(self: T, other: T) -> Tuple[T, T]: 


@abstractmethod 


def mutate(self) -> None: 


提示 “在 构造 函数 中 ， 将 会 把 TypeVar T 4 Chromosome 进行 绑 定 ， 这 意味 着 任何 填 入 了 类 型 

变量 的 对 象 都 必须 是 Chromosome 的 实例 或 子 类 。 

算法 本 身 (操纵 染色 体 的 代码 ) 将 被 实现 为 一 个 泛 型 类 ， 以 便 将 来 能 够 为 专用 的 应 用 程序 
自由 地 实现 子 类 化 。 但 首先 请 重 温 一 下 本 章 开 头 对 遗传 算法 的 描述 ， 清 晰 定义 出 执行 遗传 算法 
的 步 又 。 

(1) 创建 随机 的 染色 体 初始 种 群 ， 作 为 算法 的 第 一 代数 据 。 

(2 ) 测算 这 一 代 种 群 中 每 条 染色 体 的 适应 度 ， 如 果 有 超过 阔 值 的 就 将 其 返回 ， 算 法 结束 。 

(3) 选择 一 些 个 体 进行 繁殖 ， 适 应 度 最 高 的 个 体 被 选中 的 概率 更 大 。 

(4) 某 些 被 选中 的 染色 体 以 一 定 的 概率 发 生 交 换 ( 结合 )， 创 建 代 表 下 一 代 种 群 的 后 代 。 

(5 ) 通常 某 些 染 色 体 发 生变 异 的 概率 比较 低 。 这 样 新 一 代 的 种 群 就 已 创建 完毕 , 它 将 取代 上 
一 代 种 群 。 

(6) 返回 第 2 步 继 续 执行 ， 直 至 代 的 数量 到 达 最 大 值 ， 然 后 返回 当前 找到 的 最 优 染色 体 。 

以 上 对 遗传 算法 的 概述 ( 如 图 5-1 所 示 ) 缺少 了 许多 重要 的 细节 。 种 群 中 应 该 包含 多 少 染色 
体 ? 算法 停止 执行 的 阔 值 是 多 少 ? 该 如 何 选择 要 进行 繁殖 的 染色 体 ” 它们 该 以 多 大 的 概率 以 及 
如 何 进行 结合 (交换 ) ? 发 生变 异 的 概率 是 多 大 ? 应 该 运行 几 代 ? 

所 有 这 些 关 键 点 都 可 以 在 GeneticAlgorithm 类 中 进行 配置 。 后 续 我 们 将 逐 点 进行 定义 ， 
这 样 就 可 以 单独 对 每 一 点 进行 讨论 了 。 具 体 代码 如 代码 清单 5-2 所 示 。 
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代码 清单 5-2 genetic_algorithm.py 





from future import annotations 

from typing import TypeVar, Generic, List, Tuple, Callable 
from enum import Enum 

from random import choices, random 

from heapgq import nlargest 

from statistics import mean 


from chromosome import Chromosome 
C = TypeVar('C', bound=Chromosome) # type of the chromosomes 


class GeneticAlgorithm(Generic[C]): 
SelectionType = Enum("SelectionType", "ROULETTE TOURNAMENT") 


= 


















测算 选择 
如 果 适 应 度 大 于 适应 度 更 高 的 染色 体 
某 阔 值 ， 任 务 完成 。 被 选中 繁殖 的 概率 更 大 。 


创建 
开始 新 的 一 代 。 









交换 
某 些 被 选中 的 染色 体 发 生 结 合 


变异 
某 些 染色 体 带 有 随机 变化 。 









Or 
sea, 
0, 


FF G 
SR 
REKKKK IR 


SEX 














图 5-1 基因 算法 概述 





GeneticAlgorithm 的 参数 名 为 C, 是 符合 chromosome 类 的 泛 型 类 型 . 枚 举 SelectionType 
是 一 种 内 部 类 型 , 用 于 指定 算法 使 用 的 选择 方法 。 最 常见 的 两 种 遗传 算法 的 选择 方法 被 称 为 轮 盘 
式 选 择 法 > selection ) 和 和 锦标赛 选择 法 (tournament selection )， 轮 盘 式 选择 法 有 时 
也 被 称 为 适应 度 比 例 选择 法 fitness proportionate selection )。 轮 盘 式 选择 法 让 每 条 染色 体 都 有 机 
会 被 选中 ， per eae 比 。 在 锦标 赛 选择 法 中 , 一 定数 量 的 随机 染色 体会 相互 挑战 ， 适 应 度 
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最 佳 的 那个 染色 体 将 会 被 选中 。 具 体 代码 如 代码 清单 5-3 所 示 。 


代码 清单 5-3 genetic_algorithm.py ( 续 ) 


def init (self, initial_population: List[C], threshold: float, max_generations: 
int = 100, mutation_chance: float = 0.01, crossover chance: float = 0.7, 
selection _ type: SelectionType = SelectionType.TOURNAMENT) -> None: 
self. population: List[C] = initial population 
self. threshold: float = threshold 
self. max generations: int = max_generations 
self. mutation chance: float = mutation_chance 


self. selection type: GeneticAlgorithm.SelectionType = selection type 





ig 
f 
£ 
self. crossover chance: float = crossover chance 
f 
f 


self. fitness key: Callable = type (self. population[0]).fitness 


代码 清单 5-3 中 给 出 了 遗传 算法 的 所 有 属性 , 它们 将 在 对 象 被 创建 时 由 ”init _() 进行 配 
置 。initial population 是 算法 的 第 一 代 中 的 染色 体 。threshold 是 适应 度 水 平 ， 该 水 平 
标示 本 遗传 算法 要 求解 的 问题 的 解 已 经 找到 了 。max_generations 表示 最 多 要 运行 几 代 。 如 
果 我 们 运行 了 很 多 代 还 没有 找到 适应 度 水 平 超过 threshold 的 解 ， 则 会 返回 已 找到 的 最 优 解 。 
mutation chance 是 每 一 代 中 每 条 染色 体 发 生变 异 的 概率 。crossover chance 是 被 选 
中 繁殖 的 双亲 生育 出 带 有 它们 的 混合 基因 的 后 代 的 概率 , 若 无 混合 基因 的 后 代 , 则 后 代 只 是 其 双 
亲 的 副本 。selection type 是 要 采用 的 选择 法 的 类 型 ， 由 枚 举 SelectionType 进行 说 明 。 

ER init 方法 需要 给 出 一 长 串 的 参数 ， 其 中 大 多 数 都 带 有 默认 值 。 这 些 参数 对 上 述 介 
绍 过 的 可 配置 属性 建立 了 实例 。 本 示例 采用 Chromosome 类 的 random instance() 方 法 , 把 
_population 初始 化 为 一 系列 随机 的 染色 体 。 换 句 话 说， 第 一 代 染 色 体 只 是 一 群 随机 的 个 体 。 
更 复杂 的 遗传 算法 可 以 对 此 做 出 优化 。 经 过 对 问题 的 一 些 了 解 ， 可 以 不 从 纯 随 机 的 个 体 开 始 , 第 
一 代 种 群 可 以 包含 更 接近 于 解 的 个 体 ， 这 被 称 为 播种 (seeding )。 

_fitness key 是 对 GeneticAlgorithm 一 直 都 要 用 到 的 方法 的 一 个 引用 ， 用 于 计算 染 
色 体 的 适应 度 。 回 想 一 下 ，GeneticAlgorithm 类 需要 操纵 Chromosome 的 子 类 ， 因 此 ， 
_fitness_key 将 因子 类 的 不 同 而 不 同 。 为 了 能 访问 它 ， 我 们 用 type 0 来 引用 当前 正 待 求 适 
应 度 的 Chromosome 的 某 个 子 类 。 

下 面 将 介绍 本 类 支持 的 两 种 选择 法 。 具 体 代码 如 代码 清单 5-4 和 代码 清单 5-5 所 示 。 


代码 清单 5-4 genetic_algorithm.py ( 续 ) 


# Use the probability distribution wheel to pick 2 parents 





























# Note: will not work with negative fitness results 


def pick _roulette(self, wheel: List[float]) -> Tuple[C, C]: 
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return tuple(choices(self. population, weights=wheel, k=2)) 


依据 每 个 染色 体 的 适应 度 与 同一 代 所 有 适应 度 之 和 的 比例 , 采用 轮 盘 式 选择 法 做 出 选择 。 适 
应 度 最 高 的 染色 体 被 选中 的 概率 会 更 高 一 些 。 代 表 每 个 染色 体 适 应 度 的 值 由 参数 wheel 给 出 。 
实际 的 选择 过 程 用 choices () 函数 即 可 很 方便 地 完成 , 该 函数 位 于 Python 标准 库 的 random 模 
块 中 。 该 函数 的 参数 包括 待 选取 的 对 象 列 表 、 该 列表 中 每 项 的 权重 的 列表 ( 与 第 一 个 参数 列表 等 
长 ) 和 要 选中 的 项 数 。 

如 果 我 们 要 自己 实现 choices () 函数 ， 可 以 计算 每 一 个 列表 项 占 总 适应 度 的 百分比 ( 相对 

适应 度 )， 表 示 为 0 到 1 之 间 的 浮 es 用 一 个 0 到 1 之 间 的 随机 数 (pick) 即 可 算出 应 该 选择 

哪 一 条 染色 体 。 依 次 使 pick 减 去 每 个 染色 体 的 相对 适应 度 ， 本 算法 即 能 正常 工作 。 当 pick 小 
于 0 时， 就 遇 到 了 要 选中 的 染色 体 。 

请 问 上 述 过 程 有 道理 吗 ? 根据 适应 度 的 比例 就 能 让 每 个 染色 体 可 供 选 择 吗 ? 如 果 没 有 理解 ， 
请 拿 出 纸 和 笔 来 思考 一 下 。 请 画 出 一 个 表示 比例 的 轮 盘 ， 如 图 5-2 所 示 。 

最 基础 的 锦标 赛 选择 法 要 比 轮 盘 式 选 择 法 简单 。 它 不 需要 计算 比例 , 只 要 随机 从 整个 种 群 中 
选 出 K 个 染色 体 即 可 。 在 这 些 随机 选 出 的 个 体 中 ， 适 应 度 最 佳 的 两 个 染色 体 将 会 胜出 。 
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a 那么 根据 表 中 的 数据 ，4 号 


色 体 将 会 被 选中 。 
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轮 盘 开始 旋转 




















4 5-2” 轮 盘 式 选择 法 实例 
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代码 清单 5-5 genetic_algorithm.py ( 续 ) 


# Choose num participants at random and take the best 2 
def pick tournament (self, num participants: int) -> Tuple[C, C]: 
participants: List[C] = choices(self. population, k=num_participants) 
return tuple (nlargest (2, participants, key-self. fitness key)) 
_pick tournament () 先 利用 choices () 从 population 中 随机 选取 num participants 
个 参赛 者 ， 然 后 利用 heapq 模块 中 的 nlargest () ma, HF) fitness key 最 大 的 两 个 个 
{$> num participants 应 该 取 多 大 值 合 适 呢 ? 与 遗传 算法 中 的 很 多 参数 一 样 ， 不 断 试 错 可 
能 是 最 佳 方案 。 有 一 件 事 必须 牢记 ， 锦 标 赛 的 参赛 者 越 多 ， 种 群 的 多 样 性 就 会 越 少 ， 因 为 适应 
度 较 低 的 染色 体 将 更 有 可 能 在 竞争 中 被 消灭 "。 更 复杂 一 些 的 锦标 赛 选 择 法 可 能 会 选取 不 是 最 
强 的 那些 个 体 ， 而 是 基于 某 种 递减 概率 模型 (decreasing probability model ) 选取 第 2 强 或 第 3 
强 的 个 体 。 


_pick roulette () 和 pick tournament () 这 两 个 方法 都 可 用 于 做 出 选择 ， 选 择 在 繁 
殖 期 间 发 生 。 在 _reproquce_anq replace () 中 不 仅 实 现 了 繁殖 过 程 , 它 还 负责 确保 用 包含 
等 量 染 色 体 的 新 种 群 蔡 换 上 一 代 的 染色 体 。 具 体 代码 如 代码 清单 5-6 所 示 。 


代码 清单 5-6 genetic_algorithm.py ( 2 ) 


# Replace the population with a new generation of individuals 








def reproduce_and_replace(self) -> None: 
new population: List[C] = [] 
# keep going until we've filled the new generation 
while len(new population) < len(self. population): 
# pick the 2 parents 
if self. selection type == GeneticAlgorithm.SelectionType.ROULETTE: 
parents: Tuple[C, C] = self. pick _roulette([x.fitness() for x in 
self. population] ) 
else: 
parents = self. pick tournament (len (self. population) // 2) 
# potentially crossover the 2 parents 
if random() < self. crossover chance: 
new_population.extend (parents [0].crossover (parents[1])) 
else: 
new_population.extend (parents) 
# if we had an odd number, we'll have 1 extra, so we remove it 


if len(new_population) > len(self. population): 





@D 参见 Artem Sokolov 和 Darrell Whitley 的 Unbiased Tournament Selection (GECCO’05, June 25-29, 2005, 
Washington, D.C., U.S.A. )。 
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new population.pop() 


self. population = new population # replace reference 

在 reproduce and replace() 中, 粗略 地 实现 了 以 下 步 又 。 

(1) 用 两 种 选择 法 之 一 选 出 两 条 名 为 parents 的 染色 体 ， 用 于 进行 繁殖 。 若 是 锦标 赛 选 择 
法 ， 则 始终 在 整个 种 群 的 半数 个 体 中 进行 竞赛 ， 不 过 这 是 一 个 可 配置 的 选项 。 

(2) 双亲 将 以 一 定 概率 (_crossover_chance ) 结合 并 产生 两 条 新 的 染色 体 ， 这 时 两 条 
新 的 染色 体会 被 添加 到 new_population 中 。 如 果 没 有 后 代 ， 则 把 parents 直接 加 入 
new_population 中 。 

(3) 如 果 new_population 拥有 与 _ population MAW A, WUE; 否则 返回 
第 1 步 。 

实现 变异 的 方法 _ mutate () 十 分 简单 , 我 们 将 如 何 执行 变异 的 细节 留 给 了 染色 体 类 去 实现 。 
有 具体 代码 如 代码 清单 5-7 所 示 。 











代码 清单 5-7 genetic_algorithm.py ( 2 ) 


# With mutation chance probability mutate each individual 
def mutate(self) -> None: 
for individual in self. population: 
if random() < self. mutation_chance: 


individual.mutate() 


目前 我 们 已 经 有 了 运行 遗传 算法 所 需 的 所 有 构成 部 分 。run () 负责 协同 测算 、 繁 殖 ( 包括 选 
E) 和 变异 等 步 又 ,将 种 群 从 一 代 传 到 下 一 代 。 它 还 会 在 搜索 过 程 中 随时 记录 下 找到 的 最 佳 ( 适 
应 性 最 强 ) 染色 体 。 具 体 代 码 如 代码 清单 5-8 所 示 。 


代码 清单 5-8 genetic_algorithm.py ( 2 ) 


# Run the genetic algorithm for max_generations iterations 





# and return the best individual found 
def run(self) -> C: 
best: C = max(self. population, key=self. fitness key) 
for generation in range (self. max_generations) : 
# early exit if we beat threshold 
if best.fitness() >= self. threshold: 
return best 
print (f£f"Generation {generation} Best {best.fitness()} Avg {mean (map (self._ 
fitness key, self. population) )}") 
self. reproduce_and_replace() 
self. mutate () 


highest: C = max(self. population, key=self. fitness _ key) 
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if highest.fitness() >best.fitness(): 
best = highest # found a new best 


return best # best we found in max generations 


best 记录 了 到 目前 为 止 发 现 的 最 佳 染色 体 。 主 循环 最 多 执行 _ max_generations 次 。 只 
要 有 任何 染色 体 的 适应 度 超过 threshold， 就 会 返回 该 染色 体 ， 方 法 也 就 结束 运行 ， 否则 就 会 
调用 _reproduce_anqd _ replace () 和 _mutate () 来 创建 下 一 代 ， 并 再 次 运行 循环 。 如 果 循 环 
次 数 到 达 max_generations， 则 返回 到 目前 为 止 找到 的 最 佳 染色 体 。 
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通用 遗传 算法 GeneticAlgorithm 适用 于 任何 实现 了 Chromosome 的 类 型 。 我 们 先 来 实 
现 一 个 可 以 用 传统 方法 轻松 求解 的 简单 问题 作为 测试 , 我 们 尽量 让 算式 6x — x? + 4y -y PK 
化 。 换 句 话说 就 是 ， 算 式 中 的 x 和 yy 取 什 么 值 会 使 该 算式 产生 最 大 值 ? 

利用 微 积 分 知识 ， 分 别 对 两 个 变量 求 偏 导数 并 设 为 0， 即 可 求 得 最 大 值 。 结 果 是 x=3 H y= 
2。 本 章 中 的 遗传 算法 可 以 在 不 使 用 微 积分 的 情况 下 得 到 相同 的 结果 吗 ? 下 面 将 做 深入 的 研究 。 
具体 代码 如 代码 清单 5-9 所 示 。 


代码 清单 5-9 simple_equation.py 


from future import annotations 


5 


上 





























from typing import Tuple, List 

from chromosome import Chromosome 

from genetic algorithm import GeneticAlgorithm 
from random import randrange, random 


from copy import deepcopy 


class SimpleEquation (Chromosome) : 
def init (self, x: int, y: int) -> None: 
self.x: int = x 


self.y: int = y 


def fitness(self) -> float: # 6x - x*2 + 4y - y%*2 


return 6 * self.x - self.x * self.x + 4 * self.y - self.y * self.y 
@classmethod 
def random_instance(cls) -> SimpleEquation: 


return SimpleEquation(randrange(100), randrange (100) ) 


def crossover(self, other:SimpleEquation) ->Tuple[SimpleEquation, SimpleEquation]: 
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childl:SimpleEquation = deepcopy (self) 
child2:SimpleEquation = deepcopy (other) 
childl.y = other.y 

child2.y = self.y 

return childl, child2 


def mutate(self) -> None: 
if random() > 0.5: # mutate x 
if random() > 0.5: 
self.x += 1 
else: 
self.x -= 1 
else: # otherwise mutate y 
if random() > 0.5: 
self.y += 1 
else: 


self.y -= 1 


def str (self) -> str: 


return £"X: {self.x} Y: {self.y} Fitness: {self.fitness()}" 

SimpleEquation 符合 Chromosome 的 特征 ， 正 如 其 名 ， 它 的 代码 也 尽量 写 得 简单 一 些 。 
SimpleEquation 染色 体 中 的 基因 可 被 视 为 x 和 y 两 种 ,方法 fitness () 用 算式 6x-x + 4 一 六 
来 对 x 和 y 进行 评分 。 根据 GeneticAlgorithm, 分 值 越 大 , 个 体 的 染色 体 适应 度 越 高 。 在 实 
例 随机 的 情况 下 ，x 和 y 的 初 值 设 为 0 到 100 之 间 的 随机 整数 ， 因 此 除 用 这 两 个 值 实例 化 新 的 
SimpleEquation 之 外 ，random instance() 不 需要 执行 别 的 操作 了 。 要 在 crossover () 
中 让 两 个 SimpleEquation 结合 ， 只 需 交 换 两 个 实例 的 y 值 即 可 创建 两 个 后 代 。mutate () 将 
随机 增 或 减 x 值 或 y 值 。 到 此 就 是 矣 了 。 

因为 SimpleEquation 符合 Chromosome 的 特征 ， 所 以 现在 我 们 已 经 可 以 将 它 放 入 
GeneticAlgorithm 中 了 。 具 体 代码 如 代码 清单 5-10 所 示 。 


























代码 清单 5-10 simple_equation.py ( 续 ) 


if name == "_main_" 
initial population: List[SimpleEquation] = [SimpleEquation.random_instance() for _ in 
range (20) ] 
ga: GeneticAlgorithm[SimpleEquation] = GeneticAlgorithm(initial Population=initial 


population, threshold=13.0, max generations = 100, mutation chance = 0.1, crossover _ 
chance = 0.7) 
result:SimpleEquation = ga.run() 


print (result) 
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这 里 用 到 的 参数 是 通过 猜测 检测 ( guess-and-check ) 得 出 的 。 不 妨 试 试 其 他 值 。 因 为 我 们 已 
经 知道 正确 答案 了 ， 所 以 threshold 被 设 为 13.0。 当 x=3 且 y=2 时, 算式 的 值 等 于 13。 

如 果 事 先 不 知道 答案 , 那么 或 许 要 经 过 很 多 代 才 能 找到 最 优 解 。 这 时 可 以 将 threshold i 
为 任意 数字 。 请 记 住 ， 因 为 遗传 算法 是 随机 运行 的 ， 所 以 每 次 运行 都 会 得 到 不 同 的 结 

下 面 是 某 次 运行 后 的 输出 示例 ， 遗 传 算法 在 第 9 代 中 求 得 了 算式 的 解 : 




















Generation Best -349 Avg -6112.3 
Generation Best 4 Avg -1306.7 
Generation Best 9 Avg -288.25 
Generation Best 9 Avg -7.35 


Generation Best 12 Avg 8.5 


Generation Best 12 Avg 9.65 
Best 12 Avg 11.7 


Generation 8 Best 12 Avg 11.6 


0 
1 
2 
3 
Generation 4 Best 12 Avg 7.25 
5 
6 
7 


Generation 





X: 3 Y: 2 Fitness: 13 

如 上 所 述 ， 遗 传 算法 得 出 了 之 前 用 微 积 分 推导 出 来 的 正确 解 ， 即 x=3 和 y=2， 同 时 还 列 出 
了 几乎 每 一 代 值 ， 随 着 代数 的 增加 ， 得 出 的 解 越 来 越 接近 正确 解 。 

为 了 找到 解 ， 遗 传 算法 要 比 其 他 方案 消耗 更 多 的 计算 资源 ， 请 充分 考虑 这 一 点 。 在 现实 世界 
中 ， 以 上 这 种 简单 的 最 大 值 问题 不 能 充分 发 挥 遗 传 算 法 的 作用 ,但 它 的 简单 实现 至 少 足 以 证 明 ， 
遗传 算法 是 有 效 的 。 











5.4 重新 考虑 SEND+MORE=MONEY 问题 


在 第 3 章 中 ， 我 们 用 约束 满足 框架 解决 了 传统 的 数字 密码 问题 SEND+MORE=MONEY。 要 
获得 有 关 该 问题 的 全 部 内 容 ， 请 回顾 第 3 章 中 的 介绍 。SEND+MORE=MONEY 问题 也 可 以 由 遗 
传 算法 在 合理 的 时 间 内 得 以 求解 。 

要 表达 清楚 遗传 算法 求解 方案 要 解决 的 问题 , 最 大 的 困难 之 一 就 是 确定 问题 的 表示 形式 。 对 
数字 密码 问题 而 言 ， 有 一 种 便利 的 表示 形式 就 是 把 列表 索引 用 作 数 字 "。 因 此 ， 为 了 表示 要 用 到 
的 10 个 数字 ( 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 ), 需要 采用 包含 10 个 元 素 的 列表 。 其 次 , 问题 中 待 查找 的 
字符 可 以 在 不 同位 置 上 相互 调换 。 例 如 ， 如 果 怀 疑 某 个 问题 的 解 中 包括 代表 数字 4 的 字符 “E”， 
就 让 list[4] = "E", SEND + MORE = MONEY 有 8 个 不 同 的 字母 (S$, E, N, D,M,O,R,Y )， 
于 是 数组 中 会 留 下 2 个 空位 。 我 们 可 以 在 空位 中 填 人 空格 ， 表 示 此 处 没有 字母 。 

































































@ Reza Abbasian 和 Masoud Mazloom 的 “Solving Cryptarithmetic Problems Using Parallel Genetic Algorithm” 
(2009 Second International Conference on Computer and Electrical Engineering )。 
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代表 SEND+MORE=MONEY 问题 的 染色 体 用 SendMoreMoney2 表示 。 注意, fitness () 
方法 与 第 3 BH SendMoreMoneyConstraint 的 satisf() 方 法 惊人 地 相似 。 具 体 代 码 如 代 
码 清单 5-11 所 示 。 








代码 清单 5-11 send_more_money2.py 


from future import annotations 

from typing import Tuple, List 

from chromosome import Chromosome 

from genetic algorithm import GeneticAlgorithm 
from random import shuffle, sample 


from copy import deepcopy 
class SendMoreMoney2 (Chromosome) : 
def init (self, letters: List[str]) -> None: 


self.letters: List[str] = letters 


def fitness(self) -> float: 











s: int = self.letters.index("S") 
e: int = self.letters.index ("E") 
n: int = self.letters.index("N") 
d: int = self.letters.index("D") 
m: int = self.letters.index ("M") 
o: int = self.letters.index("0") 
r: int = self.letters.index("R") 
y: int = self.letters.index("Y¥") 


send: int = s * 1000 + e * 100 +n* 10 4+ ¢ 
more: int =m * 1000 + o * 100 +r * 10 +e 
money: int =m * 10000 + o * 1000 +n * 100 + e * 10 + y 
difference: int = abs (money - (send + more) ) 


return 1 / (difference + 1) 


@classmethod 

def random_instance(cls) ->SendMoreMoney2: 
letters = ["S", "BE", "N", "D", "M", "O", "R", "yn", "om, mony 
shuffle (letters) 


return SendMoreMoney2 (letters) 


def crossover(self, other: SendMoreMoney2) -> Tuple[SendMoreMoney2, SendMoreMoney2]: 


childl: SendMoreMoney2 = deepcopy (self) 
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child2: SendMoreMoney2 = deepcopy (other) 


idxl, idx2 = sample(range(len(self.letters)), k=2) 
11, 12 = childl.letters[idx1l1], child2.letters[idx2] 
childl.letters[childl.letters.index(12)], childl.letters[idx2] = childl. 


letters[idx2], 12 
child2.letters[child2.letters.index(1l1l)], child2.letters[idx1] 
letters[idxl], 11 


child2. 


return childl, child2 


def mutate(self) -> None: # swap two letters' locations 
idxl, idx2 = sample(range(len(self.letters)), k=2) 
self.letters[idxl], self.letters[idx2] = self.letters[idx2], self.letters[idx1] 


def str (self) -> str: 











) 
s: int = self.letters.index("S") 
e: int = self.letters.index("E") 
n: int = self.letters.index("N") 
d: int = self.letters.index("D") 
m: int = self.letters.index("M") 
o: int = self.letters.index ("0") 
r: int = self.letters.index("R") 
y: int = self.letters.index("Y¥") 


send: int = s * 1000 +e * 100 +n* 10+d 
more: int =m * 1000 + o * 100 +r* 10 +e 
money: int = m * 10000 + o * 1000 +n * 100 +e * 10 + y 
difference: int = abs (money - (send + more) ) 


return f"{send} + {more} = {money} Difference: {difference}" 


不 过 , 第 3 章 中 的 satisfied () 和 这 里 的 fitness () 之 间 有 一 处 重要 的 不 同 。 这 里 返回 
的 是 1 / (difference + 1)。difference 是 MONEY Ñ SEND + MORE 之 差 的 绝对 值 ， 

表示 染色 体 离 问题 的 解 的 距离 有 多 远 。 如 果 要 让 fitness () 的 值 最 小 化 ,那么 返回 difference 
就 可 以 了 。 但 是 ， 因 为 GeneticAlgorithm 要 追求 fitness () 的 值 最 大 化 ， 所 以 需要 将 该 值 
反 转 一 下 ( 值 越 小 看 起 来 越 大 )， 这 就 是 要 用 1 除 以 difference 的 原因 。 先 给 difference 
加 上 1， 这 样 ， 当 difference 为 0 时 就 不 会 导致 fitness () 的 值 也 为 0 (而 是 1 )。 表 $-1 演 
示 了 这 一 过 程 。 


















































表 5-1 公式 1/(difference + 1) 如 何 生成 适应 度 的 最 大 值 


difference difference + 1 fitness (1/ (difference + 1) ) 





0 1 1 





1 2 0.5 
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续 表 
difference difference + 1 fitness (1/ (difference + 1)) 
2 3 0.25 
3 4 0.125 











记 住 ， 差 越 小 越 好 ,适应 度 越 高 越 好 。 因 为 上 述 公 式 会 导致 这 两 个 因子 呈 线 性 关系 ， 所 以 效 
果 不 错 。 将 1 除 以 适应 度 是 将 求 最 小 值 问题 转换 为 求 最 大 值 问题 的 简单 方法 , 但 它 确实 引入 了 一 
些 偏差 ， 因 此 并 非 万 无 一 失 。 

random instance () 用 到 了 random 模块 中 的 shuffle () eX, crossover () 在 两 个 
染色 体 的 letters 列表 中 选取 两 个 随机 索引 ， 并 交换 两 处 的 字母 ， 这 样 最 终 在 第 1 条 染色 体 中 
有 一 个 字母 来 自 第 2 条 染色 体 的 同一 位 置 , 反之 第 2 条 染色 体 也 是 如 此 。 这 一 交换 过 程 是 在 子 对 
象 中 执行 的 ， 这 样 在 两 个 子 对 象 中 的 字母 的 放置 就 完成 了 双亲 的 结合 。mutate () 将 会 交换 
letters 列表 中 两 个 随机 位 置 的 元 素 。 

将 SendMoreMoney2 放 入 GeneticAlgorithm 与 放 入 SimpleEquation 一 样 容 易 。 但 
要 先 警 告 一 声 : 该 问题 相当 琼 手 ， 如 果 参 数 调 得 不 好 ， 执 行 过 程 就 会 耗费 很 长 时 间 。 即 使 参数 没 
问题 ,也 存在 一 定 的 随机 性 ! 求解 过 程 可 能 需要 几 秒 或 几 分 钟 。 具体 代码 如 代码 清单 5-12 所 示 。 
遗传 算法 的 特性 就 是 如 此 。 


























代码 清单 5-12 send_more_money2.py ( 续 ) 


if name == "main 
initial population: List[SendMoreMoney2] = [SendMoreMoney2.random_instance() for _ in 
range (1000) J 
ga: GeneticAlgorithm[SendMoreMoney2] = GeneticAlgorithm(initial population=initial _ 


population, threshold=1.0, max_generations = 1000, mutation_chance = 0.2, crossover_ 
chance = 0.7, selection _type=GeneticAlgorithm.SelectionType.ROULETTE) 
result: SendMoreMoney2 = ga.run() 


print (result) iu 
下 面 是 运行 了 3 代 得 到 的 输出 结果 ,每 代 使 用 了 1000 个 个 体 (如 上 所 创建 的 )。 不 妨 试 试 利 
用 GeneticAlgorithm 的 可 配置 参数 , 以 更 少 的 个 体 获 得 类 似 的 结果 。 看 看 用 轮 盘 式 选 择 法 是 
否 比 用 锦标 赛 选择 法 效果 更 好 。 


Generation 0 Best 0.0040650406504065045 Avg 8.854014252391551e-05 








© 例如 ， 如 果 仅 将 1 除 以 均匀 分 布 的 整数 值 ， 那 么 最 终 接近 于 0 的 数字 会 多 于 接近 于 1 的 ， 这 可 能 会 导 
致 出 乎 意料 的 结果 ， 典 型 的 微 处 理 器 对 浮 点 数 的 解读 方式 就 是 如 此 难以 捉摸 。 还 有 一 种 方法 可 以 把 求 
最 小 值 问题 转化 为 求 最 大 值 问题 ， 即 简单 地 将 符号 取 反 ( 把 正 变 成 负 )， 但 这 只 能 在 所 有 值 都 为 正 数 
时 才 有 用 。 
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Generation 1 Best 0.16666666666666666 Avg 0.001277329479413134 
Generation 2 Best 0.5 Avg 0.014920889170684687 
8324 + 913 = 9237 Difference: 0 


以 上 结果 表明 SEND = 8324, MORE =913, MONEY = 9237。 这 怎么 可 能 ”看 起 来 解 里 少 了 
几 个 字母 。 事 实 上 ， 如 果 M = 0， 有 几 种 解 是 不 可 能 由 第 3 章 的 算法 求 得 的 。 此 处 MORE 实际 上 
是 0913， 而 MONEY 是 09237， 只 是 0 被 忽略 了 。 





5.5 ”优化 列表 压缩 算法 


假设 有 一 些 数 据 需 要 压缩 ,并 假设 数据 项 组 成 了 一 个 列表 ,我们 不 关注 数据 项 的 顺序 ， 只 要 
数据 项 完整 就 可 以 。 数 据 项 以 什么 样 的 顺序 排列 能 将 压缩 比 最 大 化 呢 ? 你 知道 数据 项 的 排列 顺序 
会 影响 大 多 数 压缩 算法 的 压缩 比 吗 ? 

答案 将 取决 于 所 使 用 的 压缩 算法 。 本 示例 将 以 标准 设置 用 zlip 模块 中 的 compress () 函数 
进行 压缩 。 代 码 清 单 5-13 完整 展示 了 对 于 12 个 人 和 名 的 列表 的 解法 。 如 果 不 运 行 遗传 算法 ， 而 只 
是 按照 12 个 人 名 的 初始 顺序 对 它们 运行 compress () ， 则 生成 的 压缩 数据 将 有 165 FH, 


代码 清单 5-13 list_compression.py 


from future import annotations 

from typing import Tuple, List, Any 

from chromosome import Chromosome 

from genetic algorithm import GeneticAlgorithm 
from random import shuffle, sample 

from copy import deepcopy 

from zlib import compress 

from sys import getsizeof 


from pickle import dumps 
# 165 bytes compressed 
PEOPLE: List[str] = ["Michael", "Sarah", "Joshua", "Narine", "David", "Sajid", "Melanie", 


"Daniel", "Wei", "Dean", "Brian", "Murat", "Lisa"] 


class ListCompression (Chromosome): 


def init (self, lst: List[Any]) -> None: 
self.lst: List[Any] = lst 
@property 


def bytes _compressed(self) -> int: 


return getsizeof (compress (dumps (self.l1lst))) 
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def fitness(self) -> float: 


return 1 / self.bytes_ compressed 


@classmethod 

def random_instance(cls) -> ListCompression: 
mylst: List[str] = deepcopy (PEOPLE) 
shuffle (mylst) 


return ListCompression(mylst) 


def crossover(self, other: ListCompression) -> Tuple[ListCompression, ListCompression]: 
childl: ListCompression = deepcopy (self) 
child2: ListCompression = deepcopy (other) 


idxl, idx2 = sample (range (len (self.lst)), k=2) 

11, 12 = childl.lst[idxl], child2.1lst[idx2] 
childl.lst[childl.1lst.index(12)], childl.lst[idx2] = childl.l1lst[idx2], 12 
child2.1lst[child2.1lst.index(11)], child2.1lst[idxl] = child2.1lst[idx1l], 11 


return childl, child2 


def mutate (self) -> None: # swap two locations 
idxl, idx2 = sample (range (len (self.lst)), k=2) 
self.lst[idxl], self.lst[idx2] = self.lst[idx2], self.1lst[idx1] 


def str (self) -> str: 


return f"Order: {self.1lst} Bytes: {self.bytes compressed}" 


if name == "_main_": 


ye 
CES 


initial population: List[ListCompression] = [ListCompression.random_instance ( 
for _ in range(1000) ] 

ga: GeneticAlgorithm[ListCompression] = GeneticAlgorithm(initial_ population= 
initial population, threshold=1.0, max_generations = 1000, mutation chance = 


0.2, crossover chance = 0.7, selection _type=GeneticAlgorithm. SelectionType . TOURNAMENT) 





result: ListCompression = ga.run() 


print (result) 


， 代 码 清单 5-13 中 的 代码 与 5.4 节 中 SEND+MORE=MONEY 问题 的 实现 代码 非常 相似 。 


crossover () AA mutate () 函数 基本 相同 。 在 这 两 个 问题 的 求解 方案 中 ， 都 会 以 数据 项 列 
表 为 参数 , 不断 对 列表 进行 重 排 并 测试 。 可 以 为 两 个 问题 的 求解 方案 编写 一 个 通用 的 超 类 , 使 其 
适用 于 多 种 不 同 的 问题 。 任 何 可 以 用 数据 项 列表 来 表示 且 需 要 找到 数据 项 的 最 优 顺 序 的 问题 ， 都 


可 以 月 
































同样 的 方案 进行 求解 。 对 于 子 类 唯一 需要 定制 的 就 是 各 自 的 适应 度 函 数 。 


list_compression.py 可 能 需要 很 长 时 间 才 能 运行 完毕 。 因 为 与 之 前 的 两 个 问题 不 同 ， 我 们 事 
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先 不 知道 “正确 ”答案 的 构成 ， 所 以 没有 真正 的 阀 值 作为 运行 方向 。 这 里 任意 设置 代 的 数量 和 每 
代 的 个 体 数 ， 以 期 能 获得 最 佳 答案 。 重 新 排列 12 个 人 名 将 让 压缩 生成 的 最 少 字 节 数 是 多 少 ? 坦 
率 地 说 ,答案 是 未 知 的 。 本 人 用 上 述 配置 完成 的 最 好 的 一 次 运行 ,是 在 546 代 之 后 ,遗传 算法 为 
12 个 人 名 找到 了 一 种 顺序 ， 可 以 压缩 生成 159 Fo 

这 只 比 原始 顺序 节省 了 6 字 节 ( 约 节省 4% )。 有 人 可 能 会 说 4% 无 关 紧要 ， 但 如 果 这 是 一 个 
庞大 得 多 的 列表 ， 且 要 在 网 络 上 传输 多 次 ， 就 很 有 意义 了 。 想 象 一 下 ， 如 果 是 一 个 最 终 要 在 互联 
网 上 传输 10 000 000 次 的 1 MB 大 小 的 列表 。 如 果 遗 传 算法 可 以 优化 列表 的 顺序 ， 使 得 在 压缩 时 
能 节省 4% 的 空间 , 则 每 次 传输 可 节省 约 40 KB, 最 终 总 共 可 节省 400 GB 的 带宽 。 虽然 这 个 数量 
并 不 算 大 ， 但 是 或 许 足 以 说 明 为 了 找到 接近 最 优 的 压缩 顺序 而 运行 一 次 本 算法 是 划算 的 。 

请 考虑 一 点 ， 其 实 我 们 不 知道 是 否 已 找到 12 个 人 名 的 最 佳 顺序 ， 更 不 用 说 假定 的 1 MB 大 
小 的 列表 了 。 怎样 才能 知道 我 们 是 否 达 到 目标 了 呢 ? 除非 对 压缩 算法 有 深入 的 了 解 ， 和 否则 就 得 试 
着 把 每 种 顺序 的 列表 都 压缩 一 遍 。 这 对 于 仅 有 12 个 数据 项 的 列表 就 很 难 实现 ,因为 有 479 001 600 
(12!,“!” 表 示 阶 乘 ) 种 可 能 的 顺序 。 即 便 不 知道 最 终 得 到 的 是 否 真 的 是 最 优 解 ， 采 用 尽力 接近 
最 优 的 遗传 算法 也 是 比较 可 行 的 方案 。 
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遗传 算法 无 法 包 治 百 病 ， 其 实 它 对 大 多 数 问题 都 不 适用 。 对 于 所 有 存在 快速 而 确定 性 算 
法 的 问题 ， 遗 传 算法 都 没有 意义 。 固 有 的 随机 性 使 遗传 算法 的 运行 时 间 变 得 不 可 预测 。 为 了 
解决 这 个 问题 ， 可 以 在 经 过 几 代 之 后 停止 算法 的 运行 ， 但 这 时 我 们 并 不 清楚 是 否 找到 了 真正 
的 最 优 解 。 

Steven Skiena 写 的 书 是 最 受 欢 迎 的 算法 教材 之 一 ， 他 甚至 如 此 写 道 :“ 在 我 看 来 ， 我 从 没 遇 
到 过 任何 问题 是 适合 用 遗传 算法 去 攻克 的 。 此 外 , 我 从 未 见 过 能 给 我 留 下 深刻 印象 的 用 遗传 算法 
完成 的 计算 成 果 的 报道 ”” 

Skiena 的 观点 有 点 儿 极 端 , 但 这 表明 仅 在 有 理由 相信 没有 更 好 的 解决 方案 时 , 才 应 该 选择 遗 
传 算法 。 遗 传 算法 还 有 一 个 问题 ， 就 是 确定 如 何 将 某 个 问题 可 能 存在 的 解 表 示 为 染色 体 。 传 统 做 
法 是 将 大 多 数 问题 都 表示 成 二 进 制 串 (1 和 0 的 序列 ， 即 二 进 制 位 )。 通 常 在 空间 利用 率 方面 这 
是 最 佳 方案 , 并 且 它 有 助 于 简化 交换 函数 , 但 是 大 多 数 复杂 的 问题 要 被 表示 为 可 被 整齐 分 割 的 位 
串 并 不 容易 。 

另 一 个 更 具体 的 问题 也 值得 一 提 ，, 就 是 与 本 章 所 述 的 轮 盘 式 选 择 法 相关 的 挑战 。 轮 盘 式 选择 
法 有 时 也 称 为 适应 度 比 例 选 择 法 , 由 于 每 次 进行 选择 时 适应 度 较 高 的 个 体 占据 了 优势 , 因此 可 能 会 




























































































@ 参见 Steven Skiena 的 《算法 设计 指南 (第 2 版 )》 的 第 267 页 。 





114 第 5 章 遗传 算法 


导致 种 群 缺乏 多 样 性 。 另 外 , 如 果 适 应 度 值 比较 接近 , 轮 盘 式 选择 法 会 导致 选择 压力 不 足 "。 此 外 ， 
本 章 构建 的 轮 盘 式 选择 法 不 适用 于 适应 度 可 为 负数 的 问题 ， 正 如 5.3 节 中 简单 的 算式 例子 所 示 。 

简 而 言 之 , 对 于 大 多 数 规模 庞大 到 有 理由 采用 遗传 算法 的 问题 , 该 算法 均 不 能 保证 在 可 预测 
的 时 间 内 发 现 最 优 解 。 出 于 这 个 原因 ， 遗传 算法 最 适用 于 不 需要 最 优 解 的 情况 ， 在 这 种 情况 下 只 
需要 “足够 好 ”的 解 即 可 。 遗 传 算法 实现 起 来 相当 容易 , 但 对 其 可 配置 的 参数 进行 调 优 可 能 要 经 
历 很 长 的 试 错过 程 。 
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不 管 Skiena 写 过 什么 ， 遗 传 算法 都 能 频繁 有 效 地 应 用 于 大 量 的 问题 。 它 们 往往 用 于 解决 不 
需要 完美 最 优 解 的 难题 , 例如 ， 用 传统 方法 无 法 解决 的 大 型 约束 满足 问题 。 复杂 的 日 程 安排 问题 
就 是 其 中 的 一 个 例子 。 

遗传 算法 在 计算 生物 学 中 找到 了 很 多 用 武之 地 , 它们 已 被 成 功用 于 蛋白质 配 体 停靠 , 即 在 小 
分 子 与 受 体 结合 时 搜索 配置 方案 ， 在 这 里 被 用 于 药学 人 研究， 以 便 更 好 地 理解 自然 界 的 机 制 。 

在 第 9 章 中 将 重 温 的 旅行 商 问 题 ( Traveling Salesman Problem ), 是 计算 机 科学 中 最 著名 的 问 
题 之 一 。 旅 行商 希望 找到 地 图 上 的 最 短路 径 ， 每 个 城市 只 能 恰好 经 过 一 次 ， 且 要 回 到 起 始 位 置 。 
这 看 起 来 像 是 第 4 章 中 的 最 小 生成 树 ， 但 二 者 还 是 有 区 别 的 。 旅 行商 问题 的 解 是 一 个 大 的 环 路 ， 
目标 是 要 最 大 限度 地 降低 旅行 的 开销 ， 而 最 小 生成 树 则 是 要 最 大 限度 地 降低 连接 每 个 城市 的 成 
本 。 为 了 能 到 达 每 一 个 城市 , 以 最 小 生成 树 方式 在 城市 间 旅行 的 人 可 能 必须 访问 同一 个 城市 两 次 。 
尽管 两 种 算法 看 起 来 很 相似 , 但 还 是 没有 算法 能 在 合理 的 时 间 内 求解 出 任意 城市 数量 的 旅行 商 问 
题 。 遗 传 算法 已 经 表明 , 可 以 在 短 时 间 内 找到 次 优 但 够 用 的 解 。 旅 行商 问题 广泛 应 用 于 货物 的 有 
效 配送 工作 。 例 如 ，FedEx 和 UPS 的 卡车 调度 员 每 天 都 用 软件 来 求解 旅行 商 问 题 。 有 助 于 解决 
问题 的 算法 可 以 降低 各 行 各 业 的 成 本 。 

在 计算 机 合成 艺术 领域 ， 有 时 会 用 遗传 算法 以 随机 方式 模拟 生成 照片 。 请 想象 一 下 , 将 50 
个 多 边 形 随 机 放置 在 屏幕 上 ， 逐渐 扭曲 、 转 动 、 移 动 、 调 整 大 小 并 改变 颜色 ， 直 至 它们 尽 可 能 地 
与 某 张 照片 接近 。 其 结果 看 起 来 会 像 是 抽象 艺术 家 的 作品 ， 若 采用 较 有 棱角 的 形状 ， 则 结果 像 是 
彩色 玻璃 花 窗 。 

遗传 算法 是 演化 计算 (evolutionary computation ) 领域 的 一 部 分 。 在 演化 计算 中 ， 与 遗传 算 
法 密切 相关 的 一 个 领域 是 遗传 编程 ( genetic programming )， 其 程序 可 用 选择 、 交 换 和 变异 操作 修 
改 自身 ， 以 便 为 编程 问题 查找 不 太 明 显 的 解 。 遗 传 编程 不 是 一 种 被 广泛 运用 的 技术 , 但 不 妨 想象 
一 下 未 来 程序 可 以 自己 编写 自己 。 

遗传 算法 有 一 个 好 处 ,就 是 可 以 轻松 实现 并 行 运 行 。 最 明显 的 形式 就 是 , 每 个 种 群 可 以 在 单 































































































































































































D 参见 A. E. Eiben FI J. E. Smith 的 Introduction to Evolutionary Computation, Second Edition 的 第 80 页 。 
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独 的 处 理 器 上 进行 模拟 。 粒度 最 细 的 形式 就 是 ,每 个 个 体 都 可 以 发 生变 异 和 交换 ,并 在 单独 的 线 
程 中 计算 其 适应 度 。 介 于 这 两 者 之 间 的 形式 还 有 很 多 种 。 


5.8 习题 


1. 为 GeneticAlgorithm 添加 代码 ， 使 其 支持 高 级 的 锦标 赛 选择 法 ， 以 便 有 时 可 根据 概 
率 从 大 到 小 依次 选择 次 优 或 第 三 优 的 染色 体 。 

2. 为 第 3 章 的 约束 满足 框架 添加 一 个 新 函数 ， 该 函数 用 遗传 算法 求解 任意 CSP。 适 应 度 的 
值 可 以 是 染色 体能 够 满足 的 约束 数量 。 

3. 创建 一 个 实现 了 Chromosome 的 BitString 类 。 回想 一 下 第 1 章 中 的 位 串 。 然 后 用 这 
个 新 类 来 解决 5.3 节 中 的 简单 算式 问题 。 如 何 将 该 问题 编码 为 位 串 呢 ? 
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人 类 从 来 没有 像 今天 这 样 拥有 如 此 多 的 社会 数据 ,其 数量 和 种 类 都 是 空前 的 。 计 算 机 非常 善 
于 存储 数据 集 , 但 在 被 人 分 析 之 前 ,这 些 数据 集 对 社会 没有 什么 价值 。 计 算 技 术 可 以 指导 人 们 从 
数据 集中 获取 一 些 有 意义 的 信息 。 

RH (clustering ) 是 一 种 可 以 将 数据 集 里 的 点 划分 成 组 的 计算 技术 。 成 功 的 聚 类 将 会 产生 多 
个 组 ， 每 个 组 中 的 点 都 相互 关联 ， 这 些 关 联 是 否 有 意义 通常 需要 人 工 验 证 。 

在 进行 聚 类 时 ， 数 据点 所 属 的 组 ， 又 名 聚 类 徐 (cluster )， 并 非 预先 确定 的 ， 而 是 在 聚 类 算法 
的 运行 过 程 中 确定 的 。 实 际 上 , 聚 类 算法 不 会 根据 预先 假定 的 信息 将 任何 特定 数据 点 放 入 任何 特 
定 的 聚 类 艇 中 。 因 此 ， 聚 类 被 认为 是 机 还 学 习 领 域内 的 无 监督 (unsupervised) 方法 。 无 监督 可 
被 视 为 不 受 预知 指引 的 意思 。 

若 要 了 解数 据 集 的 结构 但 事先 又 不 知道 其 组 成 部 分 ， 那 么 聚 类 就 是 一 种 有 用 的 技术 。 例 如 ， 
你 拥有 一 家 超市 , 你 需要 收集 关于 客户 及 其 交易 的 数据 。 你 希望 在 一 周 中 的 某 些 时 间 投 放 特 价 商 
品 的 移动 端 广告 ， 以 吸引 客户 进 店 。 不 妨 按 星期 几 和 人 数 统计 信息 对 数据 进行 聚 类 。 或 许 你 会 发 
现 有 一 个 聚 类 复 表 明年 轻 的 购物 者 更 喜欢 在 星期 二 购物 , 利用 这 一 信息 即 可 在 这 一 天 专门 针对 这 
些 购 物 者 投放 广告 。 
























































61 预备 知识 


聚 类 算法 需要 用 到 一 些 统计 学 原 语 (均值 、 标 准 差 等 )。 自 Python 3.4 版 开始 ，Python 的 标 
准 库 在 statistics 模块 中 提供 了 几 种 有 用 的 基本 统计 操作 冰 数 。 请 注意 ， 虽 然 本 书 沿 用 的 是 
标准 库 ， 但 是 有 更 多 高 性 能 的 第 三 方 库 可 用 于 数值 操作 ， 如 NumPy， 因 此 在 看 重 性 能 的 应 用 程 
序 中 ， 应 该 充分 利用 这 些 第 三 方 库 ， 特 别 是 那些 处 理 大 数据 的 应 用 程序 。 

为 简单 起 见 , 本 章 中 要 处 理 的 数据 集 都 用 Eloat 类 型 表示 , 因此 会 有 很 多 对 float 列表 和 












































118 BOR k 均值 聚 类 


元 组 的 操作 。 基 本 统计 操作 sum () mean () 和 pstdev () 在 标准 库 中 定义 ,对 它们 的 定义 直接 
来 自 统计 学 课本 中 的 公式 。 另 外 ,我 们 要 用 到 一 个 计算 z 分数 (z-score ) 的 函数 。 具 体 代 码 如 代 
码 清单 6-1 所 示 。 


代码 清单 6-1 kmeans.py 


from future import annotations 

from typing import TypeVar, Generic, List, Sequence 
from copy import deepcopy 

from functools import partial 

from random import uniform 

from statistics import mean, pstdev 

from dataclasses import dataclass 


from data_point import DataPoint 


def zscores(original: Sequence[float]) -> List[float]: 
avg: float = mean(original) 
std: float = pstdev (original) 
if std == 0: # return all zeros if there is no variation 
return [0] * len(original) 


return [(x - avg) / std for x in original] 
提示 pstqdev () 会 求 出 整个 种 群 的 标准 差 ， 而 这 里 未 用 到 的 stqev () 会 求 出 某 个 样本 的 标 
准 差 。 

zscores () 会 把 一 系列 浮 点 数 转换 为 列表 ， 列 表 元 素 为 每 个 浮 点 数 相 对 于 原 序列 中 所 有 数 
值 的 z 分数 。 关 于 z 分 数 ， 本 章 后 面 会 有 更 多 介绍 。 


注意 ”对 基础 统计 学 知识 的 介绍 已 超出 本 书 范围 ， 不 过 对 本 章 剩余 部 分 而 言 ， 只 要 基本 了 解 均值 和 
标准 差 就 足够 了 。 如 果 你 已 有 一 段 时 间 未 接触 而 需要 复习 ， 或 者 以 前 从 未 学 过 这 些 术 语 ， 那 么 你 可 
能 需要 花 时 间 快 速 阅读 一 篇 对 这 两 个 基本 概念 进行 解释 的 统计 学 资料 。 


所 有 聚 类 算法 都 是 对 数据 点 进行 处 理 的 ,均值 算法 的 实现 也 不 例外 。 我 们 这 里 将 定义 一 个 
名 为 DataPoint 的 通用 接口 。 为 整洁 起 见 ， 我 们 将 在 DataPoint 自己 的 文件 中 定义 它 。 具 体 
代码 如 代码 清单 6-2 所 示 。 


代码 清单 6-2 data_point.py 


from future import annotations 










































































from typing import Iterator, Tuple, List, Iterable 


from math import sqrt 
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class DataPoint: 





def init (self, initial: Iterable[float]) -> None: 
self. originals: Tuple[float, ...] = tuple (initial) 
self.dimensions: Tuple[float, ...] = tuple(initial) 
@property 


def num _dimensions(self) -> int: 


return len(self.dimensions) 


def distance(self, other: DataPoint) -> float: 
combined: Iterator[Tuple[float, float]] = zip(self.dimensions, other.dimensions) 
differences: List[float] = [(x - y) ** 2 for x, y in combined] 


return sqrt (sum(differences) ) 


def eq (self, other: object) -> bool: 


if not isinstance(other, DataPoint): 
return NotImplemented 


return self.dimensions == other.dimensions 


def repr (self) -> str: 
return self. originals. repr () 
每 个 数据 点 必须 能 与 其 他 同类 型 的 数据 点 进行 相等 性 比较 (eg) )， 还 必须 有 可 供 人 
们 阅读 的 形式 以 便于 调试 打印 (repr O )。 数 据点 的 类 型 都 带 有 一 定数 量 的 维度 
(num dimensions ), 元 组 dimensions 将 每 个 维度 的 实际 值 均 存储 为 float。 init  () 
方法 的 参数 为 一 系列 表示 所 需 维度 的 可 迭代 值 . 这 些 维度 稍 后 可 能 会 被 上 均值 算法 替换 为 z 分 数 ， 
因此 我 们 还 会 在 _originals 中 保留 初始 数据 的 一 个 副本 ， 用 于 后 续 的 打印 输出 。 
在 深入 研究 均值 算法 之 前 , 还 有 一 项 准备 工作 , 就 是 计算 任意 两 个 同类 型 数据 点 之 间 的 距 
离 。 计 算 距 离 的 方式 有 很 多 种 ， 但 均值 算法 最 常用 的 方式 就 是 欧 氏 距离 (Euclidean distance )。 
这 是 几何 课程 中 最 为 熟悉 的 距离 公式 , 可 由 毕 达 哥 拉 斯 定理 推导 出 来 。 其 实 我 们 在 第 2 章 中 讨论 
过 该 公式 了 ， 并 推导 出 了 该 公式 的 二 维 空间 版 本 ， 用 于 求 出 迷宫 中 任意 两 点 间 的 距离 。 
DataPoint 所 用 的 欧 氏 距离 需要 更 复杂 一 些 , 因为 一 个 DataPoint 可 能 包含 任意 数量 的 维度 。 
这 一 版 的 distance () 特别 紧凑 ,适用 于 维度 数量 任意 的 DataPoint 类 型 .这 里 调用 zip () 
创建 元 组 并 组 合成 一 个 序列 , 元 组 里 成 对 存放 着 两 点 的 维度 。 列 表 推 导 式 将 求 出 每 个 点 在 各 维度 
上 的 差 并 求 出 差 的 平方 。sum () 将 这 些 值 求 和 和 ，distance() 返回 的 最 终 值 是 和 的 平方 根 。 































































































6.2 均值 聚 类 算法 


k 均值 聚 类 (k-means clustering ) 算法 根据 每 个 点 与 聚 类 艇 中 心 的 相对 距离 ， 尝 试 将 数据 点 
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分 组 到 某 个 聚 类 簇 中 ， 聚 类 簇 的 数量 是 预先 定义 好 的 。 在 每 一 轮 均 值 的 运行 过 程 中 ， 都 要 计算 
每 个 数据 点 与 聚 类 艇 每 个 中 心 ( 称 为 形 心 的 一 个 点 ) 之 间 的 距离 。 数 据点 将 被 分 配 到 与 其 距离 最 
近 的 形 心 所 在 的 聚 类 艇 ,然后 算法 将 重新 计算 所 有 形 心 , 求 出 分 配 到 每 个 聚 类 艇 的 所 有 点 的 均值 ， 
并 用 新 的 均值 蔡 换 旧 的 形 心 。 数 据点 的 分 配 和 形 心 的 重新 计算 会 一 直 持 续 下 去 , 直至 形 心 停止 移 
动 或 迭代 达到 了 一 定 的 次 数 。 

提供 给 均值 聚 类 算法 的 初始 数据 点 的 所 有 维度 都 需要 在 量度 上 具备 可 比 性 ， 否 则 , 大 均值 
聚 类 算法 在 进行 聚 类 时 将 向 差 最 大 的 维度 倾斜 。 使 不 同类 型 的 数据 ( 本 例 中 是 不 同 的 维度 ) 具有 
可 比 性 的 过 程 被 称 为 归 一 化 normalization )。 有 一 种 常用 的 归 一 化 数据 的 方法 是 基于 每 个 数据 值 
的 z 分数 (也 称 为 标准 分 数 ) 进行 评估 ，z 分 数 是 相对 于 其 他 同类 型 数据 而 言 的 。 读 取 一 个 数据 
值 ， 从 中 减 去 所 有 数据 的 均值 ， 将 其 结果 除 以 所 有 数据 的 标准 差 ， 即 可 求 得 z 分 数 。 真 正 对 可 迭 
代 的 一 串 float 值 执行 z 分 数 计算 的 ， 就 是 在 上 一 节 开 头 部 分 设计 的 zscores () 函数 。 

使 用 均值 聚 类 算法 的 主要 困难 是 初始 形 心 如 何 给 出 。 在 以 下 即将 实现 的 最 简单 形式 的 算法 
中 ,初始 形 心 是 随机 分 布 于 数据 范围 中 的 。 另 一 个 困难 是 该 把 数据 划分 为 多 少 个 (k 均 值 中 的 “1”) 
RAR, 经 典 算法 实现 中 的 值 由 用 户 来 确定 , 但 用 户 可 能 并 不 知道 适合 的 个 数 ， 这 需要 经 过 一 
些 实验 才能 确定 。 这 里 将 由 用 户 来 定义 “Kk” 值 。 

将 这 些 步 又 和 注意 事项 全 部 汇集 在 一 起 ， 就 是 下 面 的 上 均值 聚 类 算法 。 

(1 ) 初始 化 全 部 数据 点 和 大 个 空 聚 类 。 

(2 ) 对 全 部 数据 点 进行 归 一 化 操作 。 

(3 ) 为 每 个 聚 类 簇 创 建 与 其 关联 的 随机 分 布 的 形 心 。 

(4) 将 每 个 数据 点 分 配 到 与 其 距离 最 近 的 形 心 所 关联 的 聚 类 艇 。 

(5) 重新 计算 每 个 形 心 ， 应 是 其 关联 聚 类 艇 的 中 心 ( 均值 )。 

(6) 重复 第 4 步 和 第 5 步 ， 直 至 迭代 数量 到 达 最 大 值 或 所 有 形 心 都 停止 移动 (收敛 )。 

从 概念 上 讲 , 丰 均值 聚 类 算法 其 实 非常 简单 : 在 每 次 迭代 过 程 中 ， 每 个 数据 点 都 以 育 类 艇 的 
中 心 为 依据 与 最 近 的 聚 类 簇 相关 联 。 当 有 新 的 数据 点 与 聚 类 艇 关联 时 ， 眼 类 艇 的 中 心 就 会 移动 ， 
如 图 6-1 所 示 。 

下 面 将 实现 一 个 用 于 记录 状态 和 运行 算法 的 类 ， 类 似 于 第 5 章 中 的 GeneticAlgorithm。 
现在 回 到 kmeans.py 文件 ， 具 体 代码 如 代码 清单 6-3 所 示 。 


代码 清单 6-3 kmeans.py ( 续 ) 


Point = TypeVar('Point', bound=DataPoint) 

























































































class KMeans(Generic[Point]): 
@dataclass 


class Cluster: 
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points: List[Point] 


centroid: DataPoint 
KMeans 是 一 个 泛 型 类 。 它 适用 于 DataPoint 或 DataPoint 的 任何 子 类 ,这 些 类 由 Point 
类 型 的 bound 给 出 定义 。KMeans 包含 一 个 内 部 类 Cluster， 用 于 记录 操作 过 程 中 的 各 个 聚 类 
fie. BES Cluster 都 包含 数据 点 和 与 之 关联 的 形 心 。 
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图 6-1 在 某 个 数据 集 上 运行 了 3 REH k 均值 聚 类 算法 示例 。 星 星 表示 形 心 。 
不 同形 状 代表 当前 的 聚 类 签 成 员 状态 ( 一 直 在 变化 ) 


下 面 继续 介绍 KMeans 类 的 ”init () 方 法 ， 有 具体 代码 如 代码 清单 6-4 所 示 。 


代码 清单 6-4 kmeans.py ( 续 ) 


def init (self, k: int, points: List[Point]) -> None: 





if k < 1: # k-means can't do negative or zero clusters 
raise ValueError("k must be >= 1") 
self. points: List[Point] = points 
self. zscore normalize () 
# initialize empty clusters with random centroids 
self. clusters: List[KMeans.Cluster] = [] 
for in range(k): 
rand _ point: DataPoint = self. random_point() 
cluster: KMeans.Cluster = KMeans.Cluster([], rand_point) 


self. clusters.append(cluster) 


@property 
def _centroids (self) -> List[DataPoint]: 


return [x.centroid for x in self. clusters] 
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KMeans 包含 一 个 与 之 关联 的 数组 _points,， 它 就 是 数据 集中 的 所 有 数据 点 。 这 些 点 后 续 将 
会 被 划分 到 各 个 聚 类 簇 中 ， 聚 类 复 则 存储 在 _clusters 变量 中 。 当 KMeans 被 实例 化 时 ， 它 需 
要 知道 创建 多 少 个 聚 类 复 (k) 每 个 聚 类 簇 最 初 都 有 一 个 随机 分 布 的 形 心 。 本 算法 要 用 到 的 所 有 
数据 点 都 基于 z 分 数 进行 了 归 一 化 处 理 。 计 算出 的 centroids 属性 将 返回 本 算法 相关 到 类 簇 
所 关联 的 所 有 形 心 。 具 体 代 码 如 代码 清单 6-5 所 示 。 


代码 清单 6-5 kmeans.py ( 续 ) 


def _dimension_slice (self, dimension: int) -> List[float]: 


return [x.dimensions[dimension] for x in self. points] 

_dimension slice () 是 一 个 快捷 方法 ， 可 被 视 为 返回 一 列 数据 。 它 将 返回 一 个 列表 , 由 
每 个 数据 点 指定 索引 处 的 值 组 成 。 例 如 ， 如 果 数 据点 是 DataPoint 类 型 Ml 
_dimension_slice (0) 将 返回 由 每 个 数据 点 的 第 一 维 值 组 成 的 列表 。 这 在 代码 清单 6-6 所 示 
的 归 一 化 方法 中 很 有 用 。 








代码 清单 6-6 kmeans.py ( 续 ) 


def zscore normalize(self) -> None: 
zscored: List[List[float]] = [[] for _ in range(len(self. points) ) ] 
for dimension in range(self. points[0].num_dimensions) : 
dimension_slice: List[float] = self. dimension_slice (dimension) 
for index, zscore in enumerate (zscores (dimension slice)): 
zscored[index] .append(zscore) 
for i in range(len(self. points)): 


self. points[i].dimensions = tuple(zscored[i]) 


_zscore_normalize () 把 每 个 数据 点 的 dimensions 元 组 中 的 值 都 替换 为 其 等 价 的 z 分 
数 。 这 里 用 到 了 之 前 为 float 序列 定义 的 zscores () 函数 。 尽 管 dimensions 元 组 中 的 值 被 
HMT, 但 DataPoint 中 的 _originals 元 组 没有 被 替换 。 这 一 点 很 有 用 ,如 果 存 了 两 份 原始 
数据 , 则 用 户 在 算法 运行 完毕 后 仍 能 获取 归 一 化 处 理 之 前 各 个 维度 的 原始 值 。 具体 代码 如 代码 清 
单 6-7 所 示 。 


代码 清单 6-7 kmeans.py ( 续 ) 


def random point (self) -> DataPoint: 





rand dimensions: List[float] = [] 

for dimension in range (self. points[0] .num dimensions) : 
values: List[float] = self. dimension_slice (dimension) 
rand _ value: float = uniform (min (values), max(values) ) 
rand_dimensions.append(rand_value) 


return DataPoint (rand dimensions) 
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代码 清单 6-4 中 的 ”init  () 方 法 将 用 上 述 random point () 方 法 为 每 个 聚 类 复 创 建 最 初 
的 随机 形 心 。 为 每 个 数据 点 生成 的 随机 值 将 被 限制 在 现 有 数据 点 的 值 域内 。 © random_point () 方 
法 用 之 前 为 DataPoint 定义 的 构造 函数 从 一 个 可 迭代 值 序列 中 新 建 一 个 数据 点 。 

下 面 介绍 为 数据 点 查找 合适 归属 聚 类 簇 的 方法 ， 具 体 代 码 如 代码 清单 6-8 所 示 。 


代码 清单 6-8 kmeans.py ( 续 ) 


# Find the closest cluster centroid to each point and assign the point to that cluster 














def assign _clusters(self) -> None: 
for point in self. points: 
closest: DataPoint = min(self. centroids, key=partial (DataPoint.distance, point) ) 
idx: int = self. centroids.index (closest) 
cluster: KMeans.Cluster = self. clusters [idx] 


cluster.points.append (point) 
在 本 书 中 我 们 已 经 创建 了 几 个 能 够 在 列表 中 找到 最 小 值 或 最 大 值 的 函数 。 上 述 函 数 也 是 类 似 
的 。 当 前 情况 是 要 查找 与 每 个 数据 点 的 距离 都 最 短 的 聚 类 簇 形 心 , 然后 将 该 数据 点 分 配 到 这 一 聚 
类 簇 中 。 唯 一 稍 显 复 杂 的 地 方 就 是 用 到 了 partial () 做 中 介 的 函数 ， 其 作为 min () 的 key, 
partial () 的 参数 为 一 个 函数 ， 在 调用 该 函数 之 前 为 其 提供 一 些 参数 。 在 当前 情况 下 ， 我 们 将 
把 要 计算 的 数据 点 作为 other 参数 ， 提 供给 DataPoint .distance () 方 法 ， 从 而 计算 出 每 个 
形 心 到 该 数据 点 的 距离 ， 并 由 min () 返回 这 些 距离 的 最 小 值 。 具 体 代 码 如 代码 清单 6-9 所 示 。 


代码 清单 6-9 kmeans.py ( 续 ) 


# Find the center of each cluster and move the centroid to there 








def generate centroids(self) -> None: 
for cluster in self. clusters: 

if len(cluster.points) == 0: # keep the same centroid if no points 
continue 

means: List[float] = [] 

for dimension in range(cluster.points[0].num_dimensions) : 
dimension_slice: List[float] = [p.dimensions[dimension] for p in cluster. 

points] 

means.append (mean (dimension slice) ) 


cluster.centroid = DataPoint (means) 

BES SE LTE RRR Zt, ABATE TITEL RRA ATE BEBE 
度 的 均值 。 然 后 将 每 个 维度 的 均值 组 合 在 一 起 ， 以 求 得 聚 类 复 中 的 “中 心 点 ”( mean point), %K 
点 将 成 为 新 的 形 心 。 注 意 ， 此 处 不 能 使 用 dimension _ slice () ， 因 为 当前 这 些 数据 点 只 是 全 
部 数据 点 的 子 集 ( 仅 归 属于 某 聚 类 簇 的 点 )。 请 问 该 如 何 重 写 _dimension _ slice() ， 以 使 其 
更 加 通用 呢 ? 
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下 面 介绍 实际 运行 算法 的 方法 ， 具 体 代 码 如 代码 清单 6-10 所 示 。 


代码 清单 6-10 kmeans.py ( 2 


def run(self, max_iterations: int = 100) -> List[KMeans.Cluster]: 
for iteration in range(max_iterations) : 

for cluster in self. clusters: # clear all clusters 
cluster.points.clear () 

self. assign _clusters() # find cluster each point is closest to 

old_centroids: List[DataPoint] = deepcopy(self. centroids) # record 

self. generate _centroids() # find new centroids 

if old_centroids == self. centroids: # have centroids moved? 
print (f£"Converged after {iteration} iterations") 
return self. clusters 


return self. clusters 
run () 是 原始 算法 最 纯粹 的 体现 。 唯 一 可 能 会 令 你 感到 意外 的 改动 是 , 在 每 次 迭代 开始 时 会 
移 除 所 有 数据 点 因为 如 果 不 这 么 做 ， assign clusters() 方 法 最 终 会 在 每 个 聚 类 艇 中 放 和 信 重 
复 的 数据 点 。 
我 们 不 妨 将 k 设 为 2， 并 用 一 些 测试 用 的 DataPoint 进行 一 次 快速 检验 ， 具体 代码 如 代码 
清单 6-11 所 示 。 





代码 清单 6-11 kmeans.py ( 续 ) 


if name == "_main_" 
pointl: DataPoint = DataPoint([2.0, 1.0, 1.0]) 
point2: DataPoint = DataPoint([2.0, 2.0, 5.0]) 
point3: DataPoint = DataPoint([3.0, 1.5, 2.5]) 
kmeans test: KMeans[DataPoint] = KMeans(2, [pointl, point2, point3]) 
test_clusters: List[KMeans.Cluster] = kmeans_test.run() 


for index, cluster in enumerate(test clusters): 


print (f£f"Cluster {index}: {cluster.points}") 
由 于 随机 性 的 存在 ， 你 的 结果 可 能 会 有 所 不 同 。 结 果 应 该 如 下 所 示 : 


Converged after 1 iterations 
Glustex 0r [ (2505-1 0 DOr 438207 1.5% 2S) 
Cluster 1: [(2.0, 2.0, 5.0)] 


63 ” 按 年 龄 和 经 度 对 州长 进行 聚 类 
美国 每 一 个 州都 有 一 位 州长 。2017 年 6 月 ， 这 些 州长 的 年 龄 从 42 岁 到 79 岁 。 如 果 从 东 到 


6.3 按 年 龄 和 经 度 对 州长 进行 聚 类 
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西 以 经 度 来 考量 每 个 州 ， 也 许可 以 找到 经 度 相 近 且 州长 年 龄 相仿 的 州 聚 类 艇 。 图 6-2 是 全 部 50 
位 州长 的 散 点 图 。x 轴 是 州 的 经 度 ,y 轴 是 州长 的 年 龄 。 
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76 
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6-2 ” 按 州 的 经 度 和 州长 年 龄 绘制 的 2017 年 6 月 州长 散 点 图 
图 6-2 中 是 否 包 含 明显 的 聚 类 簇 ? 此 图 的 坐标 轴 没 有 归 一 化 。 图 中 的 数据 仍 是 原始 数据 。 如 
果 聚 类 复 总 是 那么 明显 ， 就 不 需要 用 到 聚 类 算法 了 。 
下 面试 着 用 大 均值 聚 类 算法 运行 一 下 上 述 数据 集 。 首 先 ， 单 个 数据 点 需要 有 一 种 表现 形式 。 
具体 代码 如 代码 清单 6-12 所 示 。 




















代码 清单 6-12 governors.py 


from future import annotations 


from typing import List 


from data_point import DataPoint 


from kmeans import Kmeans 


class Governor (DataPoint): 


def init (self, longitude: float, age: float, state: str) -> None: 
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super(). init  ([longitude, age]) 
self.longitude = longitude 
self.age = age 


self.state = state 


def repr (self) -> str: 


return f"{self.state}: (longitude: {self.longitude}, age: {self.age})" 


Governor 带 有 两 个 已 命名 并 存储 的 维度 : longitude 和 age。 除 为 实现 美观 打印 而 重 
写 了 了 repr () 之 外 ，Governor 没有 对 其 超 类 DataPoint 的 处 理 机 制 做 出 其 他 改动 。 手 
工 录入 以 下 数据 很 不 合理 ， 因 此 还 是 请 查看 本 书 附带 的 源 代码 库 吧 。 具 体 代 码 如 代码 清单 6-13 











所 示 。 


代码 清单 6-13 governors.py ( 续 ) 


if name == "_main_": 


governors: List[Governor] = [Governor (-86.79113, 72, "“Alabama"), Governor (-152. 


404419, 66, "“Alaska"), Governor (-111.431221, 53, "Arizona"), Governor (-92.373123, 


66, "Arkansas"), Governor (-119.681564, 79, "California"), Governor (-105.311104, 


65, "“Colorado"), Governor(-72.755371, 61, "Connecticut"), Governor(-75.507141, 


61, “Delaware"), Governor(-81.686783, 64, "Florida"), Governor (-83.643074, 
"Georgia"), Governor (-157.498337, 60, "Hawaii"), Governor (-114.478828, 75, "Idaho"), 
Governor (-88.986137, 60, "Illinois"), Governor (-86.258278, 49, "Indiana"), Governor 
(-93.210526, 57, "Iowa"), Governor (-96.726486, 60, "Kansas"), Governor (-84.670067, 


50, "Kentucky"), Governor (-91.867805, 50, "“Louisiana"), Governor (-69.381927, 


"Maine"), Governor(-76.802101, 61, "Maryland"), Governor(-71.530106, 


"Massachusetts"), Governor(-84.536095, 58, "Michigan"), Governor(-93.900192, 


70, “Minnesota"), Governor(-89.678696, 62, "Mississippi"), Governor (-92.288368, 


43, “Missouri"), Governor (-110.454353, 51, "Montana"), Governor (-98.268082, 
"Nebraska"), Governor(-117.055374, 53, "Nevada"), Governor(-71.563896, 


"New Hampshire"), Governor(-74.521011, 54, "New Jersey"), Governor (-106.248482, 


57, “New Mexico"), Governor(-74.948051, 59, "New York"), Governor (-79.806419, 
60, “North Carolina"), Governor (-99.784012, 60, "North Dakota"), Governor (-82.764915, 


65, “Ohio"), Governor (-96.928917, 62, "“Oklahoma"), Governor (-122.070938, 


"Oregon"), Governor(-77.209755, 68, "Pennsylvania"), Governor(-71.51178, 


"Rhode Island"), Governor (-80.945007, 70, "South Carolina"), Governor (-99.438828, 


64, "South Dakota"), Governor (-86.692345, 58, "Tennessee"), Governor (-97.563461, 
59, "Texas"), Governor(-111.862434, 70, "Utah"), Governor (-72.710686, 58, "Vermont") , 
Governor (-78.169968, 60, "Virginia") ,Governor(-121.490494, 66, "Washington"), 


Governor (-80.954453, 66, "West Virginia") ,Governor(-89.616508, 49, "Wisconsin"), 


Governor (-107.30249, 55, "“Wyoming") ] 
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将 k 设 为 2， 运行 均值 察 类 算法 。 具 体 代码 如 代码 清单 6-14 所 示 。 


代码 清单 6-14 governors.py ( 续 ) 


kmeans: KMeans[Governor] = KMeans(2, governors) 
gov_clusters: List[KMeans.Cluster] = kmeans.run() 
for index, cluster in enumerate (gov_clusters): 


print (f£"Cluster {index}: {cluster.points}\n") 
因为 是 以 随机 形 心 开始 运行 的 , 所 以 每 次 运行 KMeans #S Fy REM IAL AS ERKI, 这 里 需要 
进行 一 些 人 工分 析 才 能 确定 聚 类 簇 是 否 真正 相关 。 以 下 是 确实 存在 有 意义 聚 类 徐 的 情况 下 的 运行 


结 





Converged after 5 iterations 

Cluster 0: [Alabama: (longitude: -86.79113, age: 72), Arizona: (longitude: -111.431221, 
age: 53), Arkansas: (longitude: -92.373123, age: 66), Colorado: (longitude: 
-105.311104, age: 65), Connecticut: (longitude: -72.755371, age: 61), Delaware: 
(longitude: -75.507141, age: 61), Florida: (longitude: -81.686783, age: 64), 
Georgia: (longitude: -83.643074, age: 74), Illinois: (longitude: -88.986137, 
age: 60), Indiana: (longitude: -86.258278, age: 49), Iowa: (longitude: -93.210526, 
age: 57), Kansas: (longitude: -96.726486, age: 60), Kentucky: (longitude: 
-84.670067, age: 50), Louisiana: (longitude: -91.867805, age: 50), Maine: 
(longitude: -69.381927, age: 68), Maryland: (longitude: -76.802101, age: 61), 
Massachusetts: (longitude: -71.530106, age: 60), Michigan: (longitude: -84.536095, 
age: 58), Minnesota: (longitude: -93.900192, age: 70), Mississippi: (longitude: 
-89.678696, age: 62), Missouri: (longitude: -92.288368, age: 43), Montana: 
(longitude: -110.454353, age: 51), Nebraska: (longitude: -98.268082, age: 52), 
Nevada: (longitude: -117.055374, age: 53), New Hampshire: (longitude: -71.563896, 
age: 42), New Jersey: (longitude: -74.521011, age: 54), New Mexico: (longitude: 
-106.248482, age: 57), New York: (longitude: -74.948051, age: 59), North Carolina: 
(longitude: -79.806419, age: 60), North Dakota: (longitude: -99.784012, age: 
60), Ohio: (longitude: -82.764915, age: 65), Oklahoma: (longitude: -96.928917, 
age: 62), Pennsylvania: (longitude: -77.209755, age: 68), Rhode Island: (longitude: 
-71.51178, age: 46), South Carolina: (longitude: -80.945007, age: 70), South Dakota: 
(longitude: -99.438828, age: 64), Tennessee: (longitude: -86.692345, age: 58), 
Texas: (longitude: -97.563461, age:59), Vermont: (longitude: -72.710686, age: 
58), Virginia: (longitude: -78.169968, age: 60), West Virginia: (longitude: 
-80.954453, age: 66), Wisconsin: (longitude: -89.616508, age: 49), Wyoming: 
(longitude: 107.30249, age: 55)] 

Cluster 1: [Alaska: (longitude: -152.404419, age: 66), California: (longitude: 
-119.681564, age: 79), Hawaii: (longitude: -157.498337, age: 60), Idaho: (longitude: 
-114.478828, age: 75), Oregon: (longitude: -122.070938, age: 56), Utah: (longitude: 
-111.862434, age: 70), Washington: (longitude: -121.490494, age: 66) ] 
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RAJE 1 代表 最 西部 的 各 州 ， 在 地 理 上 均 彼 此 相 邻 ( 如果 将 Alaska 和 Hawaii 视 作 与 太平 洋 


沿岸 各 州 相 邻 ) 这 些 州 的 州长 年 龄 相对 较 大 ， 于 是 就 形成 了 一 个 有 意义 的 聚 类 簇 。 难 道 太 平 洋 
沿岸 的 人 们 都 喜欢 年 长 的 州长 吗 ? 除 相 关 之 外 ， 无 法 从 这 些 聚 类 簇 中 得 出 任何 其 他 结论 。 图 6-3 
演示 了 这 一 结果 。 方 块 表示 聚 类 艇 1, AL RAN RAI 0。 


年 龄 
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提示 “如 果 形 心 是 随机 初始 化 的 , 则 每 次 大 均值 聚 类 的 结果 会 有 所 不 同 , 这 一 点 怎么 强调 都 不 为 过 。 
对 于 任何 数据 集 ， 请 确保 多 次 运行 大 均值 聚 类 算法 。 


G4 按 长 度 聚 类 迈克 尔 … 杰克 逮 的 专辑 


WEEK + WRITE 10 张 个 人 专辑 。 以 下 示例 将 通过 两 个 维度 对 这 些 专 辑 进 行 聚 类 辑 长 














度 (以 分 钟 为 单位 ) 和 曲目 数量 。 此 示例 与 上 面 的 州长 示例 形成 鲜明 对 比 ， 因 为 即使 不 运行 均 
值 聚 类 算法 也 很 容易 在 原始 数据 集中 看 出 聚 类 复 。 此 类 示例 可 以 用 作 调 试 实现 聚 类 算法 代码 的 好 
方案 。 
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本 章 的 两 个 示例 都 采用 了 两 维 的 数据 点 ， 但 均值 聚 类 算法 对 任意 维度 的 数据 点 都 能 胜任 。 


本 示例 代码 将 在 代码 清单 6-15 中 完整 给 出 。 如 果 在 运行 本 示例 代码 之 前 查看 一 下 代码 清 
单 6-15 中 的 专辑 数据 ,很 明显 就 能 看 出 迈克 尔 : 杰克 进 越 临 近 职 业 生 涯 结束 制作 的 专辑 就 越 长 。 
因此 ， 专 辑 的 两 个 聚 类 簇 可 能 应 该 划分 为 早期 专辑 和 晚期 专辑 。 专 辑 HlStory: Past, Present, and 
Future, Book 了 则 是 一 个 野 值 (outlier )， 在 逻辑 上 也 可 以 归属 于 其 自己 单独 的 聚 类 得 中 。 所 谓 枝 
值 ， 是 指 位 于 数据 集 正常 限 值 之 外 的 数据 点 。 


代码 清单 6-15 mj.py 


from future import annotations 











from typing import List 


from data_point import DataPoint 


from kmeans import KMeans 


class Album(DataPoint): 


def init (self, name: str, year: int, length: float, tracks: float) -> None: 


super(). init  ([length, tracks]) 
self.name = name 

self.year = year 

self.length = length 


self.tracks = tracks 


def repr (self) -> str: 


return f"{self.name}, {self.year}" 


" 


if _name_ == "_main_" 
albums: List[Album] = [Album ("Got to Be There", 1972, 35.45, 10), Album("Ben", 
1972, 31.31, 10), Album ("Music & Me", 1973, 32.09, 10), Album("Forever, Michael", 
1975, 33.36, 10), Album ("Off the Wall", 1979, 42.28, 10), Album("Thriller", 
1982, 42.19, 9), Album("Bad", 1987, 48.16, 10), Album("Dangerous", 1991, 77.03, 
14), Album("HIStory: Past, Present and Future, Book I", 1995, 148.58, 30), 
Album("Invincible", 2001, 77.05, 16) ] 
kmeans: KMeans[Album] = KMeans(2, albums) 
clusters: List[KMeans.Cluster] = kmeans.run() 


for index, cluster in enumerate(clusters): 


print (f"Cluster {index} Avg Length {cluster.centroid.dimensions[0]} Avg Tracks 


{cluster.centroid.dimensions[1]}: {cluster.points}\n") 


属性 name 和 year 只 是 用 于 标记 的 记录 项 ,在 实际 的 聚 类 中 并 不 会 涉及 。 下 面 给 
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出 的 是 一 个 输出 示例 : 


Converged after 1 iterations 

Cluster 0 Avg Length —-0.5458820039179509 Avg Tracks —0.5009878988684237: [Got to Be There, 
1972, Ben, 1972, Music & Me, 1973, Forever, Michael, 1975,off the Wall,1979, 
Thriller, 1982, Bad, 1987] 

Cluster 1 Avg Length 1.2737246758085523 Avg Tracks 1.169717640263217: [Dangerous, 1991, 
HIStory:Past, Present and Future, Book I,1995,Invincible, 2001] 


FT EDR AY RAR BAY (IRA BS. TES, REPE 2 分 数 。 聚 类 得 1 的 3 张 专 
辑 , AL ER + eM aa 3 张 专辑 , 要 比 他 全 部 的 10 张 个 人 专辑 的 平均 值 长 约 一 个 
标准 差 。 











6.5 均值 聚 类 算法 问题 及 其 扩展 


如 果实 现下 均值 聚 类 算法 时 用 了 随机 起 点 ， 则 数据 集 里 有 意义 的 划分 点 可 能 会 被 完全 错过 。 
这 通常 会 让 操作 人 员 经 历 大 量 的 试 错 才 能 得 出 结果 。 如 果 操 作 人 员 无 法 看 出 数据 的 分 组 数 , 那么 
找 出 正确 的 “Kk” 值 (上 聚 类 簇 的 数量 ) 也 是 困难 且 容 易 出 错 的 。 

均值 聚 类 算法 还 存在 比较 复杂 的 版 本 ,可 以 利用 它们 尝试 对 造成 困难 的 变量 进行 有 依据 的 
猜测 或 自动 试 错 。k-means++ (上 均值 ++ ) 就 是 一 种 比较 流行 的 变 体 算法 ， 它 不 是 完全 随机 地 选 
择 形 心 ， 而 是 基于 到 各 点 距离 的 概率 分 布 来 选择 形 心 ， 以 解决 形 心 初始 化 的 问题 。 对 很 多 应 用 程 
序 而 言 , 更 好 的 选择 是 根据 提前 知晓 的 数据 信息 选择 合适 的 起 始 区 域 ， 以 获取 各 个 形 心 值 。 换 名 
话说 ， 这 种 磊 均 值 聚 类 算法 是 由 用 户 来 选取 初始 的 各 个 形 心 。 

均值 聚 类 操作 的 运行 时 间 与 数据 点 的 数量 、 聚 类 簇 的 数量 和 数据 点 的 维度 数 成 正比 。 如 果 
数据 点 数量 很 多 ,数据 点 的 维度 数 也 很 多 ,那么 基础 版 的 均值 聚 类 算法 将 不 再 具有 可 用 性 。 有 
些 扩展 版 本 的 算法 试图 在 每 个 数据 点 和 每 个 形 心 之 间 不 进行 尽 可 能 多 的 计算 , 方法 是 在 计算 之 前 
首先 评估 一 下 某 数据 点 是 否 真 有 可 能 会 移 到 别 的 聚 类 簇 中 去 。 对 于 多 点 或 高 维度 的 数据 集 还 有 一 
种 选择 ， 就 是 只 对 数据 点 的 采样 数据 进行 大 均值 聚 类 操作 ,对 采样 数据 运行 的 结果 将 会 近似 于 完 
整 算法 可 能 求 得 的 聚 类 簇 。 

数据 集 里 的 野 值 可 能 会 导致 奇怪 的 大 均值 聚 类 结果 。 如 果 初 始 形 心 恰好 落 在 野 值 附近 ,就 可 
能 会 形成 一 个 聚 类 徐 (迈克尔 . 杰克 逊 示例 中 的 HIStory 专辑 就 有 可 能 发 生 )。 如 果 去 除了 野 值 ， 
均值 罕 类 算法 将 能 运行 得 更 好 。 

良好 的 形 心 判断 方案 并 不 一 定 要 通过 均值 。k-medians 算法 将 判断 每 个 维度 的 中 位 数 ， 
k-medoids 算法 则 使 用 数据 集中 的 实际 点 值 作为 每 个 聚 类 复 的 中 心 。 若 是 选用 这 些 方法 来 确定 中 
DR, 对 统计 学 知识 的 要 求 已 超出 了 本 书 的 范围 , 但 常识 说 明 对 于 棘手 的 问题 可 能 值得 用 每 一 种 
算法 去 尝试 ， 并 对 结果 进行 抽样 。 其 实 这 些 算法 的 实现 代码 并 没有 很 大 的 差别 。 
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6.6 ”现实 世界 的 应 用 


聚 类 通常 是 数据 科学 家 和 统计 分 析 师 的 职责 范围 。 它 被 广泛 用 作 一 种 对 各 个 领域 的 数据 进行 
解释 的 方法 。 特 别 是 对 数据 集 的 结构 知之 甚 少 时 , 上 均值 聚 类 算法 就 是 一 种 有 用 的 技术 。 

在 数据 分 析 领 域 ， 聚 类 是 一 种 必 不 可 少 的 技术 。 例 如 ， 警 察 部 门 主 管 想 要 知道 该 把 警力 
投 到 哪里 去 巡逻 ; 快餐 店 店主 想 要 找 出 最 佳 顾 客 在 哪里 ， 以 便 发 送 促销 信息 ; 船员 想 要 分 析 
事故 发 生 时 间 和 导致 事故 的 人 员 ， 以 便 减 少 事故 的 发 生 。 请 思考 一 下 他 们 该 如 何 利 用 聚 类 来 
解决 问题 。 

聚 类 还 对 模式 识别 有 帮助 。 聚 类 算法 可 以 检测 到 未 被 人 眼 识 别 出 来 的 模式 。 例 如 , 在 生物 学 
中 有 时 用 聚 类 来 识别 反常 细胞 群 。 

在 图 像 识别 领域 ， 聚 类 有 助 于 识别 出 不 太 明 显 的 特征 。 可 以 将 像素 视 为 数据 点 ， 它 们 之 间 的 
关系 由 距离 和 色差 进行 定义 。 

在 政治 学 领域 ， 有 时 会 用 聚 类 来 找 出 目标 选民 。 某 个 政党 能 发 现 被 夺权 选民 都 聚集 在 
某 一 个 地 区 吗 ? 这 样 他们 的 竞选 资金 就 应 该 集中 投向 这 个 地 区 。 类 似 的 选民 可 能 会 关注 哪 
些 议 题 ? 
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.创建 一 个 能 将 CSV 文件 中 的 数据 导入 DataPoint 的 函数 。 

利用 matplotlib 之 类 的 外 部 库 创 建 一 个 绘图 函数 , 为 KMeans 在 二 维 数据 集 上 运行 的 
结果 绘制 着 色散 点 图 。 

.为 KMeans 创建 一 个 新 的 初始 化 函数 ， 初 始 形 心 位 置 不 再 是 随机 指定 ， 而 是 由 初始 化 函 
数 的 参数 给 出 。 

人 研究 并 实现 k-means++ 算 法 。 
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期 一 说 起 人 工 智 能 方面 所 取得 的 进步 ,我们 通常 关注 的 是 名 为 机 器 学 习 





(machine learning ) 的 特定 的 子 学 科 。 所 谓 机 器 学 习 是 指 不 用 被 明确 告知 ， 计 算 机 就 会 学 习 一 些 














新 的 知识 。 这 些 进步 往往 














是 由 名 为 神经 网 络 (neural network ) 的 机 器 学 习 技 术 驱 动 的 。 虽然 神 经 


网 络 在 几 十 年 前 就 被 发 明了 , 但 因为 改良 的 硬件 和 新 发 现 的 研究 导向 的 软件 技术 开启 了 一 种 名 为 
深度 学 习 ( deep learning ) 的 新 范式 ， 使 神经 网 络 已 经 经 历 了 某 种 程度 的 复兴 。 


























深度 学 习 已 被 证 明 是 一 种 具备 广泛 适应 性 的 技术 。 从 对 冲 基 金 算法 到 生物 信息 学 , 到 处 都 有 
它 的 用 武之 地 。 消 费 者 熟悉 的 两 种 深度 学 习 应 用 是 图 像 识 别 和 语音 识别 。 例如， 向 教 字 助理 提问 
天 气 状况 ， 或 者 用 拍照 程序 进行 人 脸 识 别 ， 这 里 面 就 可 能 有 某 些 深度 学 习 算 法 在 运行 。 

深度 学 习 技 术 使 用 的 构建 模块 与 较 简单 的 神经 网 络 一 样 。 在 本 章 中 , 我 们 将 通过 构建 一 个 简 
单 的 神经 网 络 来 探讨 这 些 模块 。 这 里 的 实现 不 会 是 最 先进 的 , 但 它 将 是 理解 深度 学 习 的 基础 ， 深 
度 学 习 基 于 的 神经 网 络 将 比 我 们 要 构建 的 神经 网 络 更 为 复杂 。 大 多 数 机 器 学 习 的 业界 人 士 不 会 从 
头 开始 构建 神经 网 络 ， 他 们 会 利用 流行 的 、 高 度 优化 的 、 现 成 的 框架 来 完成 繁重 的 任务 。 虽 然 本 
章 无 助 于 学 习 某 种 特定 框架 的 使 用 方式 , 即将 构建 的 神经 网 络 对 实际 应 用 也 没什么 意义 , 但 仍 将 
有 助 于 我 们 了 解 那些 框架 底层 的 工作 方式 。 
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人 类 的 大 脑 是 现存 最 令 人 难以 置信 的 计算 设备 。 它 无 法 像 微 处 理 需 那样 快速 地 处 理 数 字 , 但 
它 适 应 新 情况 .学 习 新 技能 和 创新 的 能 力 是 任何 已 知 的 机 器 都 无 法 超越 的 。 自 计算 机 诞生 之 日 起 ， 
科学 家 就 一 直 对 大 脑 机 制 的 建 模 很 感 兴趣 。 大 脑 中 的 每 个 神经 细胞 称 为 神经 元 (neuron )。 大 脑 
中 的 神经 元 通过 名 为 突 触 ( synapse ) 的 连接 彼此 连 成 网 。 电 流 经 过 突 触 来 驱动 这 些 神经 元 网 络 ， 
也 称 为 神经 网 络 ( neural network )。 
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注意 出 于 类 比 考虑 ， 上 述 对 生物 神经 元 的 描述 是 粗略 的 过 于 简化 的 说 法 。 事 实 上 ， 生 物 神经 元 包 
含 轴 突 (axon )、 树 突 (dendrite) 和 细胞 核 等 部 分 ， 这 会 令 人 回想 起 高 中 的 生物 课 。 突 触 实际 上 是 
神经 元 之 间 的 间隙 ， 这 里 分 泌 出 的 神经 说 质 (neurotransmitter) 能 够 传递 电信 号 。 


尽管 科学 家 已 经 识别 出 神经 元 的 组 成 部 分 和 功能 , 但 我 们 对 生物 神经 网 络 形成 复杂 思维 模式 
的 细节 仍然 未 能 很 好 地 理解 。 它 们 是 如 何 处 理 信息 的 ?它们 如 何 形 成 原创 的 想法 ?大 部 分 对 大 脑 
工作 方式 的 认识 都 来 自 宏观 层面 的 观察 。 当 人 进行 某 项 活动 或 思考 某 个 想法 时 ， 对 大 脑 进行 功 
能 性 核磁 共振 (FMRI) 扫描 就 会 显示 血液 流动 的 方位 ( 如 图 7-1 所 示 )。 通过 这 些 宏观 技术 ， 
我 们 能 够 推 是 出 大 脑 各 个 部 分 的 连接 情况 , 但 这 些 技术 无 法 解释 各 个 神经 元 如 何 帮助 开发 新 想 
法 的 奥秘 。 
























































图 片 来 自 公 共 资 源 ， 美 国 国家 卫生 研究 所 





























图 7-1 研究 人 员 研 究 大 脑 的 fMRI AR. MRI 图 像 不 能 说 明 各 个 神经 元 的 工作 方式 及 神经 网 络 的 组 织 方式 


全 球 范围 内 的 科学 家 团队 都 在 竞相 破解 大 脑 的 奥秘 , 但 请 考虑 这 一 点 : 人 类 的 大 脑 中 大 约 有 
100 000 000 000 ( 1000 {Z ) 个 神经 元 ,每 个 神经 元 可 能 连接 的 神经 元 多 达 数 万 个 。 即 便 计算 机 拥 
有 数 十 亿 个 逻辑 门 和 数 万 亿 字 节 (TB) 内 存 ， 用 当前 的 技术 也 不 可 能 对 一 颗 人 脑 完 成 建 模 。 在 
可 预见 的 未 来 ， 人 类 仍 可 能 是 最 先进 的 通用 学 习 体 。 



































注意 所谓 的 强人 工 智能 (strong AI )， 也 就 是 通用 人 工 智 能 (artificial general intelligence )， 其 目标 
就 是 获得 与 人 类 能 力 相 当 的 通用 学 习 机 器 。 纵 观 历 史 ， 目 前 这 仍然 是 存在 于 科幻 小 说 中 的 事物 。 弱 
人 工 智能 (weak AI) 则 是 已 司空 见 惯 的 AI 类 型 : 计算 机 智能 地 完成 预先 配置 好 的 指定 任务 。 


如 果 我 们 对 生物 神经 网 络 并 不 完全 了 解 , 又 该 如 何 将 其 建 模 为 高 效 的 计算 技术 呢 ? 虽然 数字 
神经 网 络 ， 称 为 人 工 神经 网 络 ( artificial neural network )， 受 到 了 生物 神经 网 络 的 启发 ,但 也 仅仅 
是 受到 了 启发。 现代 的 人 工 神经 网 络 并 不 像 对 应 的 生物 神经 网 络 那样 工作 , 事实 上 也 不 可 能 做 到 , 
因为 生物 神经 网 络 如 何 开展 工作 尚 不 为 人 所 完全 了 解 。 
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12 人工 神经 网 络 


在 本 节 中 我 们 将 介绍 最 常见 的 人 工 神 经 网 络 类 型 ， 一 种 带 有 反 向 传播 (backpropagation ) 的 
前 馈 〈feed-forward ) 网 络 ， 后 续 还 将 为 其 开发 代码 。 前 馈 意 味 着 信号 在 网 络 上 通常 往 一 个 方向 
传递 。 反 向 传播 则 表示 每 次 信号 在 网 络 中 传播 结束 后 都 要 查 明 误差 ， 并 尝试 在 网 络 上 将 这 些 误差 
的 修正 方案 进行 反 向 分 发 , 特别 是 会 影响 对 误差 负 最 大 责任 的 神经 元 。 其 他 类 型 的 人 工 神经 网 络 
还 有 许多 ， 本 章 或 许 会 激 起 大 家 进一步 进行 探索 的 兴趣 。 



































7.2.1 神经 元 


人 工 神经 网 络 中 的 最 小 单位 是 神经 元 。 神 经 元 拥有 一 个 权重 向 量 ， 即 一 串 浮 点 数 。 输 入 的 向 
量 (也 只 是 一 些 浮 点 数 ) 将 被 传递 给 神经 元 。 神 经 元 用 点 积 操作 将 这 些 输入 与 其 权重 合并 在 一 起 。 
然后 对 该 点 积 执行 激活 函数 (activation function ), 并 将 结果 输出 。 上 述 操作 可 被 视 为 与 真正 的 神 
经 元 行为 类 似 。 

激活 函数 是 神经 元 输出 的 转换 器 。 激 活 函数 几乎 总 是 非 线性 的 , 这 使 得 神经 网 络 可 以 将 结 
表示 为 非 线 性 问题 。 如 果 没 有 激活 函数 ， 则 整个 神经 网 络 将 只 是 一 个 线性 转换 。 图 7-2 展示 了 一 
个 神经 元 及 其 操作 。 
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在 神经 元 内 部 ， 输 入 和 权重 
通过 点 积 操作 合并 为 输出 。 















权重 1 
权重 2 = 输出 
权重 3 


输入 1 
输入 2 
输入 3 







AGREE) = 最 终 输出 
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在 输出 离开 神经 元 之 前 ， 
对 其 调用 激活 函数 如 。 


输入 2 权重 2 





最 终 输 出 























图 7-2 每 个 神经 元 将 其 权重 与 输入 信号 结合 ， 生 成 一 个 经 过 激活 函数 修正 的 输出 信号 





注意 本 节 中 有 一 些 数 学 术语 可 能 不 会 出 现在 微 积分 先 修 课 程 或 线性 代数 课程 中 。 对 向 量 或 点 积 的 
解释 已 经 超出 了 本 章 的 范围 ,但 即便 你 没有 完全 理解 这 些 数学 知识 ， 也 可 能 从 本 章 后 续 的 内 容 中 对 
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神经 网 络 的 行为 获得 一 定 的 直觉 上 的 了 解 。 本 章 后 面 会 出 现 一 些微 积分 的 知识 ,包括 导数 和 偏 导 数 
的 运用 ， 但 即使 你 没有 完全 理解 这 些 数学 知识 ， 也 应 该 能 跟 得 上 这 些 代码 。 事 实 上 ， 本 章 不 会 解释 
如 何 用 微 积 分 进行 公式 推导 ， 本 章 的 重点 将 是 求 导 的 应 用 .。 


























7.2.2 分 层 























在 典型 的 前 馈 人 工 神经 网 络 中 , 神经 元 被 分 为 多 个 层 。 每 层 由 一 定数 量 的 神经 元 排 成 行 或 列 
构成 ,是 行 还 是 列 由 示意 图 而 定 ， 两 者 是 等 价 的 。 在 下 面 将 要 构建 的 前 馈 网 络 中 ,信号 总 是 从 一 
层 单 向 传递 到 下 一 层 。 每 层 中 的 神经 元 发 送 其 输出 信号 , 作为 下 一 层 神经 元 的 输入 。 每 层 的 每 个 
神经 元 都 与 下 一 层 的 每 个 神经 元 相连 。 

第 一 层 称 为 输入 层 ， 它 从 某 个 外 部 实体 接收 信号 。 最 后 一 层 称 为 输出 层 ， 其 输出 通常 必须 经 
由 外 部 角色 解释 才能 得 出 有 意义 的 结果 。 输 入 层 和 输出 层 之 间 的 层 称 为 隐藏 层 。 在 本 章 中, 我 们 
即将 构建 的 简单 神经 网 络 中 只 有 一 个 隐藏 层 ， 但 深度 学 习 网 络 的 隐藏 展会 有 很 多 。 图 7-3 呈现 了 
一 个 简单 神经 网 络 中 各 层 的 协同 工作 过 程 。 请 注意 某 一 层 的 输出 是 如 何 用 作 下 一 层 每 个 神经 元 的 
输入 的 。 


































































































隐藏 层 


输出 层 


输入 层 

















图 7-3 一 个 简单 的 神经 网 络 ， 这 个 神经 网 络 有 一 个 包含 2 个 神经 元 的 输入 层 、 一 个 包含 4 个 


ESN. 


神经 元 的 隐藏 层 和 一 个 包含 3 个 神经 元 的 输出 层 。 每 层 的 神经 元 数量 可 以 是 任意 多 个 



































这 些 层 只 是 对 浮 点 数 做 一 些 操作 。 输 入 层 的 输入 是 浮 点 数 ， 输 出 层 的 输出 也 是 浮 点 数 。 

显然 , 这 些 数字 必须 代表 一 些 有 意义 的 东西 。 不 妨 将 此 神经 网 络 想象 为 要 对 黑白 的 动物 小 图 
片 进行 分 类 。 也 许 输入 层 有 100 个 神经 元 ， 代 表 10 像素 x10 像素 的 动物 图 片 中 每 个 像素 的 灰 度 
值 ， 而 输出 层 则 有 5 个 神经 元 ,代表 此 图 片 是 哺乳 动物 、 扑 行动 物 、 两 栖 动 物 、 鱼 类 或 鸟 类 的 可 
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能 性 ,最 终 的 分 类 可 以 由 浮 点 数 输出 值 最 大 的 那个 输出 神经 元 来 确定 ,假设 输出 数值 分 别 为 0.24、 
0.65、0.70、0.12 和 0.21， 则 此 图 片 将 被 确定 为 两 栖 动 物 。 


7.2.3 REHE 

最 后 一 部 分 , 也 是 最 复杂 的 部 分 , 就 是 反 向 传播 。 反 向 传播 将 在 神经 网 络 的 输出 中 发 现 误 差 ， 
并 用 它 来 修正 神经 元 的 权重 。 某 个 神经 元 对 误差 担负 的 责任 越 大 ， 对 其 修正 就 会 越 多 。 但 误差 从 
何 而 来 ”我 们 如 何 才 能 知道 存在 误差 呢 ? 

误差 由 被 称 为 训练 (training ) 的 神经 网 络 应 用 阶段 获得 。 
































提示 本 节 会 有 几 个 步骤 写成 了 数学 公式 。 伪 公式 (符号 不 一 定 很 恰当 ) 写 在 了 配 图 中 。 这 种 

写法 将 让 那些 对 数学 符号 不 在 行 RAR) 的 人 更 容易 读 懂 这 些 公式 。 如果 你 对 更 正规 的 符号 

(及 公式 的 推导 ) 感 兴趣 ， 请 查看 Russell 和 Norvig 的 《人 工 智能 : 一 种 现代 的 方法 (第 3 版 )》 

的 第 18 章 。 

大 多 数 神经 网 络 在 使 用 之 前 , 都 必须 经 过 训练 。 我 们 必须 知道 通过 某 些 输入 能 够 获得 的 正确 
输出 ， 以 便 用 预期 输出 和 实际 输出 的 差异 来 查找 误差 并 修正 权重 。 换 名 话说 ,神经 网 络 在 最 开始 
时 是 一 无 所 知 的 , 直至 它们 知晓 对 于 某 组 特定 输入 集 的 正确 答案 , 在 这 之 后 才能 为 其 他 输入 做 好 
准备 。 反 向 传播 仅 发 生 在 训练 期 间 。 


注意 ”因为 大 乡 数 神经 网 络 都 必须 经 过 训练 ， 所 以 其 被 认为 是 一 种 监督 机 器 学 习 。 请 回想 一 下 第 6 
章 ,均值 聚 类 算法 和 其 他 聚 类 算法 被 认为 是 一 种 无 监督 机 器 学 习 算 法 ， 因 为 它们 一 旦 启动 就 无 须 
进行 外 部 干预 , 除 本 章 介 绍 的 这 种 神经 网 络 之 外 , 其 他 还 有 一 些 类 型 的 神经 网 络 是 不 需要 预 训练 的 ， 
那些 神经 网 络 可 被 视 为 无 监督 机 器 学 习 。 


反 向 传播 的 第 一 步 , 是 计算 神经 网 络 针对 某 些 输入 的 输出 与 预期 输出 之 间 的 误差 。 输 出 层 中 
的 所 有 神经 元 都 会 具有 这 一 误差 ( 每 个 神经 元 都 有 一 个 预期 输出 及 其 实际 输出 )。 然 后 ， 输 出 神 
经 元 的 激活 函数 的 导数 将 会 应 用 于 该 神经 元 在 其 激活 函数 被 应 用 之 前 输出 的 值 (这 里 缓存 了 一 份 
应 用 激活 函数 前 的 输出 值 ), 将 求 导 结 果 再 乘 以 神经 元 的 误差 , RH delta. 求 delta 公式 用 到 了 偏 
导数 ， 其 微 积 分 推导 过 程 超出 了 本 书 的 范围 ， 大 致 就 是 要 计算 出 每 个 输出 神经 元 承担 的 误差 量 。 
有 关 此 计算 的 示意 图 ， 如 图 7-4 所 示 。 

然后 必须 为 网 络 所 有 隐藏 层 中 的 每 个 神经 元 计算 delta, 每 个 神经 元 对 输出 层 的 不 正确 输 
出 所 承担 的 责任 都 必须 明确 。 输 出 层 中 的 delta 将 会 用 于 计算 上 一 个 隐藏 层 中 的 delta。 根 据 
下 层 各 神经 元 权重 的 点 积 和 在 下 层 中 已 算出 的 delta， 可 以 算出 上 一 层 的 delta。 将 这 个 值 乘 





































































































@ Stuart Russell 和 Peter Norvig 的 《人 工 智 能 : 一 种 现代 的 方法 (第 3 版 )》( 4rtificial Intelligence: A Modern 
Approach, Third Edition )。 
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以 调用 神经 元 最 终 输 出 〈 在 调用 激活 函数 之 前 已 缓存 ) 的 激活 函数 的 导数 ， 即 可 获得 当前 
神经 元 的 delta。 同 样 ， 这 个 公式 是 用 偏 导 数 推导 得 出 的 ， 有 关 介绍 可 以 在 更 专业 的 数学 课 
本 中 找到 。 





























delta 保 存在 神经 元 中 ， 
供 上 一 层 计算 delta。 fF) 是 激活 函数 的 导数 。 2 代表 误差 。 
输出 delta = f(OutputCache) * e e = 预期 输出 -实际 输出 
神经 元 \ 了 \ 
OutputCache 是 最 后 一 次 信号 的 前 馈 预期 输出 是 由 外 部 的 训练 数据 集 
处 理 过 程 中 传 入 激活 函数 的 数据 。 中 的 数据 提供 的 ， 它 是 神经 元 理 
应 输出 的 已 知 正确 结果 。 
[Z] 





7-4 在 训练 的 反 向 传播 阶段 计算 输出 神经 元 的 delta 的 机 制 








图 7-5 呈现 了 隐藏 层 中 各 神经 元 的 delta 的 实际 计算 过 程 。 在 包含 多 个 隐藏 层 的 网 络 中 ， 神 
经 元 O01、02 和 03 可 能 不 属于 输出 层 ， 而 属于 下 一 个 隐藏 层 。 












O1w1 是 传 给 O1 的 权重 ， O1w1 
对 应 于 来 自 N1 的 信号 。 
delta 保 存在 神经 元 中 。 


temp = 
O1Delta O1w1 
O2Delta e | O2w1 
O3Delta O3w1 


on `, 


i 隐藏 ` O1、O02 和 0O3 都 带 有 各 自 的 delta， 
{神经 元 | 由 图 7-4 计 算得 出 。 
KOND) 7 
ree, mh 其 他 隐藏 神经 元 的 delta 以 同样 的 方式 ， 
由 下 一 层 相 应 的 权重 和 输出 缓存 计算 


得 出 。 
图 7-5 ”隐藏 层 中 神经 元 的 delta 的 计算 过 程 


最 重要 的 一 点 是 , 网 络 中 每 个 神经 元 的 权重 都 必须 进行 更 新 , 更 新 方式 是 把 每 个 权重 的 最 近 
一 次 输入 、 神 经 元 的 delta 和 一 个 名 为 学 习 率 (learning rate) 的 数 相 乘 ， 再 将 结果 与 现 有 权重 相 
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加 。 这 种 改变 神经 元 权重 的 方式 被 称 为 梯度 下 降 (gradient descent )。 这 就 像 候 一 座 小 山 ， 表示 神 
经 元 的 误差 函数 向 最 小 误差 的 点 不 断 靠近 。delta 代表 了 扑 山 的 方向 ， 学 习 率 则 会 影响 柳 和 候 的 速 
度 。 不 经 过 反复 的 试 错 ， 很 难为 未 知 的 问题 确定 良好 的 学 习 率 。 图 7-6 呈现 了 隐藏 层 和 输出 层 中 
每 个 权重 的 更 新 方式 。 





所 有 权重 数据 都 会 根据 以 下 公式 进行 更 新 : 
w = w + learningRate x lastinput x delta 
其 中 lastlnput 是 最 后 一 轮 正 向 传播 过 程 中 权重 相 乘 的 最 后 输入 。 
因此 ，N1w1 应 该 是 : 
N1w1 = N1w1 + learningRate x lastlnput1 x N1Delta 



















lastlnput1 






lastInput2 


记得 吧 ，N1Delta 已 在 上 一 步 中 计算 得 出 ， 如 图 7.5 所 示 。 
学 习 率 通常 由 神经 网 络 的 用 户 通过 反复 试 错 来 确定 。 











图 7-6 用 前 面 步骤 求 得 的 delta、 原 权重 、 原 输入 和 用 户 指定 的 学 习 率 
更 新 每 个 隐藏 层 和 输出 层 中 神经 元 的 权重 








ny 




















fi 


























一 旦 权重 更 新 完毕 , 神经 网 络 就 可 以 用 其 他 输入 和 预期 输出 再 次 进行 训练 。 此 过 程 将 一 直 重 
BPE, 直至 该 神经 网 络 的 用 户 认为 其 已 经 训练 好 了 , 这 可 以 用 正确 输出 已 知 的 输入 进行 测试 来 
确定 。 

反 向 传播 确实 比较 复杂 。 如 果 你 还 未 掌握 所 有 细节 ， 请 不 必 担 心 。 仅 凭 本 节 的 讲解 可 能 还 不 
够 充分 。 在 理想 情况 下 ， 编 写 反 向 传播 算法 的 实现 代码 会 提升 你 对 它 的 理解 程度 。 在 实现 神经 网 
络 和 反 向 传播 时 ,请 牢记 一 个 首要 主题 : 反 向 传播 是 一 种 根据 每 个 权重 对 造成 不 正确 输出 所 承担 
的 责任 来 调整 该 权重 的 方法 。 
































7.2.4 全貌 
本 节 已 经 介绍 了 很 多 基础 知识 。 虽然 细节 还 没有 呈现 出 什么 意义 , 但 重要 的 是 要 牢记 反 向 传 
播 的 前 馈 网 络 具 备 以 下 特点 。 
m 信号 ( 浮 点 数 ) 在 各 个 神经 元 间 单 向 传递 ， 这 些 神经 元 按 层 组 织 在 一 起 。 每 层 所 有 的 神 
经 元 都 与 下 一 层 的 每 个 神经 元 相连 。 
m 每 个 神经 元 (输入 层 除外 ) 都 将 对 接收 到 的 信号 进行 处 理 , 将 信号 与 权重 (也 是 浮 点 数 ) 
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合并 在 一 起 并 调用 激活 函数 。 
E 在 训练 过 程 中 ， 将 网 络 的 输出 与 预期 输出 进行 比较 ， 计 算出 误差 。 
E 误差 在 网 络 中 反 向 传播 (返回 出 发 地 ) 以 修改 权重 ， 使 其 更 有 可 能 创建 正确 的 输出 。 
训练 神经 网 络 的 方法 远 不 止 本 书 介绍 的 这 一 种 。 信 号 在 神经 网 络 中 的 移动 方式 还 有 很 多 种 。 
这 里 介绍 的 及 后 续 将 要 实现 的 方法 ,只 是 一 种 特别 常见 的 形式 , 适合 作为 一 种 正规 的 介绍 。 附 录 
B 列 出 了 进一步 学 习 神 经 网 络 ( 包括 其 他 类 型 ) 和 数学 知识 所 需 的 资源 。 





13 预备 知识 


神经 网 络 用 到 的 数学 机 制 需要 进行 大 量 的 浮 点 操作 。 在 开发 简单 神经 网 络 的 实际 结构 之 前 ， 
我 们 需要 用 到 一 些 数学 原 语 (primitive )。 这 些 简单 的 原 语 将 被 广泛 运用 于 后 面 的 代码 中 , 因此 如 
果 我 们 能 找到 使 其 加 速 的 方法 ， 将 能 真正 改善 神经 网 络 的 性 能 。 











警告 本 章 的 代码 无 疑 比 本 书 的 其 他 代码 都 要 复杂 。 需 要 构建 的 代码 有 很 多 ， 而 实际 执行 结果 只 有 
在 最 后 才能 看 到 。 有 很 多 相关 资源 会 帮 你 用 几 行 代码 就 构建 一 个 神经 网 络 ， 但 是 本 示例 的 目标 是 要 
探究 其 运作 机 制 ， 以 及 各 组 件 如 何以 高 可 读 性 和 高 扩展 性 的 方式 协同 工作 。 这 就 是 本 书 的 目标 ， 尽 
管 代码 越 长 表现 力 越 强 。 























7.3.1 点 积 


大 家 都 还 记得 ， 前 馈 阶 段 和 反 向 传播 阶段 都 需要 用 到 点 积 。 幸 运 的 是 ， 用 Python 内 置 函 数 
zip () 和 sum() 很 容易 就 能 实现 点 积 。 先 把 函数 保存 在 util.py 文件 中 。 具 体 代码 如 代码 清单 7-1 
所 示 。 


代码 清单 7-1 util.py 


from typing import List 

















from math import exp 


# dot product of two vectors 
def dot product (xs: List[float], ys: List[float]) -> float: 


return sum(x * y for x, y in zip(xs, ys)) 


7.3.2 ”激活 函数 

回想 一 下 , 在 信号 被 传递 到 下 一 层 之 前 , 激活 函数 对 神经 元 的 输出 进行 转换 ( 如 图 7-2 所 示 )。 
激活 函数 有 两 个 目的 : 一 是 让 神经 网 络 不 只 是 能 表示 线性 变换 的 解 ( 只 要 激活 函数 本 身 不 只 是 线 
性 变换 ); 二 是 能 将 每 个 神经 元 的 输出 保持 在 一 定 范围 内 。 激 活 函 数 应 该 具有 可 计算 的 导数 ， 这 
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样 它 就 能 用 于 反 向 传播 。 

sigmoid 函数 就 是 一 组 流行 的 激活 函数 。 图 7-7 中 展示 了 一 种 特别 流行 的 sigmoid 函数 (通常 
“sigmoid 函数 ”就 是 指 它 )， 在 图 中 被 称 为 S(x)， 还 给 出 了 它 的 表达 式 及 其 导数 ( Sx) )。sigmoid 
函数 的 结果 一 定 是 介 于 0 和 1 之 间 的 值 。 大 家 即将 看 到 , 让 数值 始终 保持 在 0 和 1 之 间 对 神经 网 
络 来 说 是 很 有 用 的 。 图 7-7 中 的 公式 很 快 就 会 出 现在 代码 中 了 。 














S'Q) = Sx) (1 = SC)) 


图 7-7 sigmoid 激活 函数 ( S(x)) 会 始终 返回 0 到 1 之 间 的 值 。 注 意 它 的 导数 ( S(X) ) 同样 也 很 容易 计算 




















其 他 的 激活 函数 还 有 很 多 ， 但 这 里 将 采用 sigmoid 函数 。 下 面 把 图 7-7 中 的 公式 直接 转换 为 
代码 ， 如 代码 清单 7-2 所 示 。 


代码 清单 7-2 util.py ( 2 ) 


# the classic sigmoid activation function 
def sigmoid(x: float) -> float: 
return 1.0 / (1.0 + exp(-x)) 
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def derivative sigmoid(x: float) -> float: 
sig: float = sigmoid(x) 


return sig * (1 - sig) 


1A 构建 神经 网 络 


为 了 对 神经 网 络 中 的 3 种 组 织 单位 (神经 元 、 层 和 神经 网 络 本 身 ) 进行 建 模 ， 我 们 将 会 创建 
多 个 类 。 为 简单 起 见 ， 将 从 最 小 的 神经 元 开始 ， 再 到 核心 组 件 ( 层 )， 直 至 构建 最 大 组 件 〈 整 个 
神经 网 络 )。 随 着 组 件 从 小 到 大 ， 我 们 会 对 前 一 级 进行 封装 。 神 经 元 对 象 只 能 看 到 自己 。 层 对 象 
会 看 到 其 包含 的 神经 元 和 其 他 层 。 神 经 网 络 对 象 则 能 看 到 全 部 的 层 。 











注意 ”本 章 有 很 多 代码 行 会 比较 长 ， 无 法 完全 适应 印刷 书籍 的 行 宽 限制 。 我 们 强烈 建议 读者 下 载 本 
章 的 源 代 码 ， 并 在 计算 机 屏幕 上 浏览 代码 。 





7.4.1 神经 元 的 实现 


先 从 神经 元 开始 吧 。 一 个 神经 元 对 象 将 会 保存 很 多 状态 ,包括 其 权重 、delta、 学 习 率 、 最 
近 一 次 输出 的 缓存 、 激 活 函 数 及 其 导数 等 。 其 中 某 些 内 容 如 果 保 存在 高 一 个 级 别 的 对 象 中 (后 
续 的 Layer 类 中 ), 性 能 可 能 会 更 好 , 但 为 了 演示 , 它们 还 是 被 包含 在 代码 清单 7-3 的 Neuron 
类 中 。 


代码 清单 7-3 neuron.py ( 续 ) 


from typing import List, Callable 





from util import dot product 


class Neuron: 
def init (self, weights: List[float], learning_rate: float, activation_function: 


Callable[[float], float], derivative activation function: Callable[[float], 


float]) -> None: 

self.weights: List[float] = weights 

self.activation_ function: Callable[[float], float] = activation function 
self.derivative activation function: Callable[[float], float] = derivative_ 


activation_function 

self.learning_rate: float = learning rate 
self.output_cache: float = 0.0 
self.delta: float = 0.0 





def output(self, inputs: List[float]) -> float: 
self.output_cache = dot_product (inputs, self.weights) 
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return self.activation function(selLlf.output_ cache) 


大 多 数 参 数 都 在 ”init _() 方 法 中 完成 初始 化 。 因 为 在 首次 创建 Neuron If, delta 和 
output_cache 是 未 知 的 ， 所 以 只 是 将 它们 初始 化 为 0。 所 有 神经 元 的 变量 都 是 可 变 的 。 在 神 
经 元 的 生命 周期 中 , 它们 的 值 可 能 永远 都 不 会 发 生变 化 ( 即将 如 此 运用 ), 但 为 了 保持 灵活 性 
还 是 设 为 可 变 为 好 。 如 果 这 个 Neuron 类 将 与 其 他 类 型 的 神经 网 络 一 起 合作 ， 则 其 中 某 些 值 
可 能 会 在 运行 中 发 生变 化 。 有 一 些 神经 网 络 可 以 在 求解 过 程 中 改变 学 习 率 ， 并 自动 尝试 各 种 
不 同 的 激活 函数 。 这 里 我 们 将 努力 让 Neuron 类 保持 最 大 的 灵活 性 ， 以 便 适 应 其 他 的 神经 网 
络 应 用 。 

除 init__() Zh, Neuron 类 只 有 一 个 output () 方 法 。output () 的 参数 为 进入 神经 
元 的 输入 信号 (inputs )， 它 调用 本 章 的 前 面 讨 论 过 的 公式 CHIE! 7-2 所 示 )。 输 入 信号 通过 点 
积 操作 与 权重 合并 在 一 起 ， 并 在 output_cache 中 留 了 一 份 缓存 数据 。 回 想 一 下 介绍 反 癌 传播 
的 章节 ， 在 应 用 激活 函数 之 前 获得 的 这 个 值 将 用 于 计算 delta。 最 后 ， 信 和 号 被 继续 发 送 给 下 一 层 
(从 output () 返回 ) 之 前 ， 将 对 其 应 用 激活 函数 。 

就 这 些 了 ! 这 个 神经 网 络 中 的 神经 元 个 体 非常 简单 , 除了 读 取 输入 信号 、 对 其 进行 转换 并 发 
送 结果 以 供 进一步 处 理 ， 它 不 做 别 的 事情 。 它 维护 着 供 其 他 类 使 用 的 几 种 状态 数据 。 




















7.4.2 ” 层 的 实现 


本 章 的 神经 网 络 中 的 层 对 象 需要 维护 3 种 状态 数据 : 所 含 神经 元 、 其 上 一 层 和 输出 缓存 。 输 
出 缓存 类 似 于 神经 元 的 缓存 , 但 高 一 个 级 别 。 它 缓存 了 层 中 每 一 个 神经 元 在 调用 激活 函数 之 后 的 
给 出 。 

在 创建 时 ， 层 对 象 的 主要 职责 是 初始 化 其 内 部 的 神经 元 。 因 此 ，Layer KIN init__() 
方法 需要 知道 应 该 初始 化 多 少 个 神经 元 ， 它 们 的 激活 函数 是 什么 ， 以 及 它们 的 学 习 率 为 多 少 。 
在 本 章 这 个 简单 的 神经 网 络 中 ， 层 中 的 每 个 神经 元 都 有 相同 的 激活 函数 和 学 习 率 。 具 体 代码 如 
代码 清单 7.4 所 示 。 


代码 清单 7-4 layer.py ( 续 ) 


from future import annotations 




















from typing import List, Callable, Optional 
from random import random 
from neuron import Neuron 


from util import dot product 


class Layer: 
def init (self, previous_layer: Optional[Layer], num_neurons: int, learning_ 


rate: float, activation_function: Callable[[float], float], derivative_activation_ 
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function: Callable[[float], float]) -> None: 
self.previous_ layer: Optional[Layer] = previous_layer 
self.neurons: List[Neuron] = [] 
# the following could all be one large list comprehension 
for i in range (num _ neurons) : 
if previous layer is None: 
random weights: List[float] = [] 
else: 
random weights = [random() for _ in range(len(previous_layer.neurons) ) ] 
neuron: Neuron = Neuron (random weights, learning rate, activation function, 
derivative _activation_function) 
self.neurons.append (neuron) 


self.output_cache: List[float] = [0.0 for _ in range (num _ neurons) ] 


当 信号 在 神经 网 络 中 前 馈 时 ，Layez 必须 让 每 个 神经 元 都 对 其 进行 处 理 。 请 记 住 ， 层 中 的 
每 个 神经 元 都 会 接收 到 上 一 层 中 每 个 神经 元 传人 的 信号 。outputs () 正 是 如 此 处 理 的 。 
outputs () 还 会 返回 处 理 后 的 结果 ( 以 便 经 由 网 络 传递 到 下 一 层 ) 并 将 输出 缓存 一 份 。 如 果 不 
存在 上 一 层 ， 则 表示 本 层 为 输入 层 ， 只 要 将 信号 向 前 传递 给 下 一 层 即 可 。 具 体 代 码 如 代码 清单 
7-5 所 示 。 


代码 清单 7-5 layer.py ( 续 ) 


def outputs(self, inputs: List[float]) -> List[float]: 
if self.previous_ layer is None: 
self.output_cache = inputs 
else: 
self.output_cache = [n.output(inputs) for n in self.neurons] 


return self.output_cache 
在 反 向 传播 时 需要 计算 两 种 不 同类 型 的 delta: 输出 层 中 神经 元 的 delta 和 隐藏 层 中 神经 元 的 
delta。 图 7-4 和 图 7-5 中 分 别 给 出 了 公式 的 描述 ， 代 码 清单 7-6 中 的 两 个 方法 只 是 机 械 地 将 公式 
转换 成 了 代码 。 稍 后 在 反 向 传播 过 程 中 神经 网 络 对 象 将 会 调用 这 两 个 方法 。 


代码 清单 7-6 layer.py ( 4 ) 


# should only be called on output layer 
def calculate deltas for output layer(self, expected: List[float]) -> None: 





for n in range(len(self.neurons) ): 
self.neurons[n].delta = self.neurons[n].derivative_activation_ function 


(self.neurons[n].output_cache) * (expected[n] - self.output_cache[n]) 


# should not be called on output layer 
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def calculate deltas for hidden _layer(self, next_layer: Layer) -> None: 





for index, neuron in enumerate(self.neurons): 
next_weights: List[float] = [n.weights[index] for n in next _layer.neurons] 
next_deltas: List[float] = [n.delta for n in next_layer.neurons] 
sum_weights and deltas: float = dot_product (next weights, next_deltas) 
neuron.delta = neuron.derivative activation _function(neuron.output_cache) * 


sum_weights and deltas 


7.4.3 神经 网 络 的 实现 


神经 网 络 对 象 本 身 只 包含 一 种 状态 数据 ， 即 神经 网 络 管理 的 层 对 象 。Network 类 负责 初始 
化 其 构成 层 。 

init _() 方 法 的 参数 为 描述 网 络 结构 的 int 列表 。 例 如 ， 列 表 [2，4，3] 描 述 的 网 络 
为 : metry Ces 隐藏 层 有 4 个 神经 元 ， 输 出 层 有 3 个 神经 元 。 在 这 个 简单 的 网 络 
中 , 假设 网 络 中 的 所 有 层 都 将 采用 相同 的 神经 元 激活 函数 和 学 5396, SLE ARGH RSE 7 
所 示 。 


代码 清单 7-7 network.py 


from future import annotations 

from typing import List, Callable, TypeVar, Tuple 
from functools import reduce 

from layer import Layer 


from util import sigmoid, derivative sigmoid 
T = TypeVar('T') # output type of interpretation of neural network 


class Network: 
def init (self, layer structure: List[int], learning_rate: float, 
activation function: Callable[[float], float] = sigmoid, 
derivative activation function: 
Callable[[float], float] = derivative sigmoid) -> None: 
if len(layer structure) < 3: 
raise ValueError("Error: Should be at least 3 layers (1 input, 1 hidden, 
1 output)") 
self.layers: List[Layer] = [] 
# input layer 
input_layer: Layer = Layer (None, layer structure[0], learning rate, 
activation function, derivative activation function) 
self.layers.append(input_layer) 
# hidden layers and output layer 
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for previous, num neurons in enumerate(layer structure[1::]): 
next_layer = Layer(self.layers[previous], num neurons, learning rate, 
active ation function, derivative activation function) 


self.layers.append(next_layer) 


神经 网 络 的 输出 是 信号 经 由 其 所 有 层 传递 之 后 的 结果 ,注意 简洁 的 reduce () 函数 是 如 何 用 
在 outputs () 中 ,将 信号 反复 从 一 层 传递 到 下 一 层 ， 进 而 传 遍 整 个 网 络 的 。 具 体 代码 如 代码 清 
单 7-8 所 示 。 


代码 清单 7-8 network.py ( & ) 


# Pushes input data to the first layer, then output from the first 
# as input to the second, second to the third, etc. 
def outputs(self, input: List[float]) -> List[float]: 


return reduce((lambda inputs, layer: layer.outputs(inputs)), self.layers, input) 
backpropagate () 方 法 负责 计算 网 络 中 每 个 神经 元 的 delta。 它 会 依次 调用 Layer 类 的 
calculate deltas for output layer 1() 方 法 和 calculate deltas for hidden layer () 
方法 。 还 记得 吧 ， 在 反 向 传播 时 要 反 向 计算 delta。 它 会 把 给 定 输 入 集 的 预期 输出 值 传递 给 
calculate_ deltas_for_output_layer () 。 该 方法 将 用 预期 输出 值 求 出 误差 ， 以 供 计算 
delta 时 使 用 。 具 体 代码 如 代码 清单 7-9 所 示 。 








代码 清单 7-9 network.py ( 续 ) 


# Figure out each neuron's changes based on the errors of the output 
# versus the expected outcome 
def backpropagate(self, expected: List[float]) -> None: 

# calculate delta for output layer neurons 

last_layer: int = len(self.layers) - 1 


self.layers[last_layer].calculate_ deltas for output_layer (expected) 





# calculate delta for hidden layers in reverse order 
for 1 in range(last_layer - 1, 0, -1): 


self.layers[1l].calculate deltas for hidden layer(self.layers[1l + 1]) 


backpropagate () 的 确 负 责 计算 所 有 的 delta, 但 它 不 会 真 的 去 修改 网 络 中 的 权重 。 
update weights () 必须 在 backpropagate () 之 后 才能 被 调用 ， 因 为 权重 的 修改 依赖 delta。 
update_weights () 方 法 直接 来 自 图 7-6 中 的 公式 。 具 体 代码 如 代码 清单 7-10 所 示 。 








代码 清单 7-10 network.py ( 续 ) 


# backpropagate() doesn't actually change any weights 
# this function uses the deltas calculated in backpropagate() to 


# actually make changes to the weights 
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def update _weights(self) -> None: 
for layer in self.layers[1:]: 


for neuron in layer.neurons: 
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# skip input layer 


for w in range(len(neuron.weights) ): 


neuron.weights[w] 


neuron.weights[w] 


+ (neuron.learning rate * 


(layer.previous_layer.output_cache[w]) * neuron.delta) 


在 每 轮训 练 结束 时 , 会 对 神经 元 的 权重 进行 修改 





o 必须 向 神经 网 络 提供 训练 数据 集 ( 同时 给 


出 输入 与 预期 的 输出 )。train () 方 法 的 参数 即 为 输入 列表 的 列表 和 预期 输出 列表 的 列表 。 


train () 方 法 在 神经 网 络 上 运行 每 一 组 输入 , 然后 以 





预期 输出 为 参数 调用 backpropagate () ， 


然后 再 调用 update_weights () ， 以 更 新 网 络 的 权重 。 不 妨 试 着 在 train () 方 法 中 添加 代码 ， 


使 得 在 神经 网 络 中 传递 训练 数据 集 时 能 把 误差 率 打 印 
如 何 逐 渐 降低 的 。 具 体 代码 如 代码 清单 7-11 所 示 。 


代码 清单 7-11 network.py ( 续 


# train() uses the results of outputs() run 
# against expecteds to feed backpropagate () 
def train(self, inputs: 


for location, xs in enumerate(inputs): 


ys: List[float] = 


outs: 


List [float] self.outputs (xs) 
self. backpropagate (ys) 


self.update_weights () 


List[List[float]], expecteds: 


出 来 , 以 便于 查看 梯度 下 降 过 程 中 误差 率 是 


over many inputs and compared 
and update weights () 
List[List[float]]) -> None: 


expecteds [location] 


在 神经 网 络 经 过 训练 后 ,我 们 需要 对 其 进行 测试 validate () 的 参数 为 输入 和 预期 输出 ( 与 


train() 的 参数 没什么 区 别 )， 但 它们 不 会 用 于 训练 
网 络 已 经 过 训练 。validate () 还 有 一 个 参数 是 函数 





神经 网 络 的 输出 ， 以 便 将 其 与 预期 输出 进行 比较 。 


"Amphipbian" 这 样 的 字符 串 。interpret output 


， 而 会 用 来 计算 准确 度 的 百分比 。 这 里 假定 
interpret_output (), 该 函数 用 于 解释 

或 许 预期 输出 不 是 一 组 浮 点 数 ， 而 是 像 
t O 必须 读 取 作为 网 络 输出 的 浮 点 数 ， 并 将 








其 转换 为 可 以 与 预期 输出 相 比 较 的 数据 。interpre 


数 。validate() 将 返回 分 类 成 功 的 类 别 数量 、 通 过 i 


代码 如 代码 清单 7-12 所 示 。 


代码 清单 7-12 network.py ( 续 


t_output () 是 特定 于 茶 数 据 集 的 自 定 义 孙 
测试 的 样本 总 数 和 成 功 分 类 的 百分比 。 具体 


# for generalized results that require classification 


# this function will return the correct number of trials 


# and the percentage correct out of the total 


def validate (self, inputs: List[List[float]], expecteds: List[T], interpret_output: 


Callable[[List[float]], 


T]) -> Tuple[int, int, 


float]: 
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correct: int = 0 
for input, expected in zip(inputs, expecteds): 
result: T = interpret_output (self.outputs (input) ) 
if result == expected: 
correct += 1 
percentage: float = correct / len(inputs) 


return correct, len(inputs), percentage 


至 此 神经 网 络 就 完工 了 ! 已 经 可 以 用 来 进行 一 些 实际 问题 的 测试 了 。 虽 然 此 处 构建 的 架构 是 
通用 的 ， 足 以 应 对 各 种 不 同 的 问题 ， 但 这 里 将 重点 解决 一 种 流行 的 问题 ， 即 分 类 问题 。 





























15 分 类 问题 


在 第 6 章 中 ,用 上 左 均 值 聚 类 进行 了 数据 集 的 分 类 ， 那 时 对 每 个 单独 数据 的 归属 没有 预先 
的 设 定 。 在 聚 类 过 程 中 , 我 们 知道 需要 找到 数据 的 一 些 类 别 , 但 事先 不 知道 这 些 类 别 是 什么 。 
在 分 类 问题 中 ， 我 们 仍然 要 尝试 对 数据 集 进行 分 类 ， 但 是 会 有 预 设 的 类 别 。 例 如 ， 假 设 要 对 
一 组 动物 图 片 进 行 分 类 ， 我 们 可 能 会 提前 确定 哺乳 动物 、 疏 行 动物 、 两 栖 动 物 、 鱼 类 和 乌 类 
等 类 别 。 

可 用 于 解决 分 类 问题 的 机 需 学 习 技 术 有 很 多 。 或 许 你 听 说 过 支持 回 量 机 (support vector 
machine )、 决 策 树 (decision tree ) 或 朴素 贝 叶 斯 分 类 算法 (naive Bayes classifier )。 其 他 还 有 很 
多 。 近 来 ,神经 网 络 已 经 在 分 类 领域 中 得 到 广泛 应 用 。 与 其 他 的 一 些 分 类 算法 相 比 ， 神 经 网 络 的 
计算 更 为 密集 , 但 它 能 够 对 表面 看 不 出 是 什么 类 型 的 数据 进行 分 类 , 这 使 其 成 为 一 种 强大 的 技术 。 
很 多 有 趣 的 图 像 分 类 程序 在 为 现代 的 图 片 软件 赋 能 ， 这 些 程序 背后 都 用 到 了 神经 网 络 分 类 算法 。 

为 什么 对 分 类 问题 应 用 神经 网 络 出 现 了 复兴 现象 呢 ? 因为 硬件 的 运行 速度 已 经 变 得 足 
够 快 了 ， 与 其 他 算法 相 比 ， 神 经 网 络 需要 的 额外 计算 量 相对 于 获得 的 收益 而 言 变 得 划算 起 
来 了 。 











































































































7.5.1 数据 的 归 一 化 


在 被 输入 神经 网 络 之 前 ， 待 处 理 的 数据 集 通常 需要 进行 一 些 清理 。 清 理 可 能 会 包括 移 
除 无 关 字 符 、 删 除 重 复 项 、 修 复 错 误 和 其 他 琐事 。 对 于 即将 被 处 理 的 两 个 数据 集 ， 需 要 执 
行 的 清理 工作 就 是 归 一 化 。 在 第 6 章 中 ， 我 们 用 KMeans 类 中 的 zscore normalize() 方 
法 完成 了 归 一 化 。 归 一 化 就 是 读 取 以 不 同 尺 度 (scale) 记录 的 属性 值 ， 并 将 它们 转换 为 相同 
的 尺度 。 

因为 有 了 sigmoid 激活 函数 ， 神 经 网 络 中 的 每 个 神经 元 都 会 输出 0 到 1 之 间 的 值 。 看 来 0 到 
1 之 间 的 尺度 对 于 输入 数据 集中 的 属性 也 有 意义 是 合乎 逻辑 的 。 将 尺度 从 某 一 范围 转换 为 0 到 1 
之 间 的 范围 并 没有 什么 挑战 性 。 对 于 最 大 值 为 max、 最 小 值 为 min 的 某 个 属性 范围 内 的 任意 值 
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V ,转换 公式 就 是 newV =(oldV- min)/(max - min )。 此 操作 被 称 为 特征 缩放 ( feature scaling )。 
代码 清单 7-13 给 出 的 是 加 入 util.py 中 的 一 种 Python 实现 。 


代码 清单 7-13 ”util.py ( 续 ) 


# assume all rows are of equal length 
# and feature scale each column to be in the range 0 - 1 
def normalize by feature scaling(dataset: List[List[float]]) -> None: 
for col_num in range(len(dataset[0])): 
column: List[float] = [row[col_num] for row in dataset] 
maximum = max(column) 
minimum = min(column) 
for row num in range(len(dataset) ) : 
dataset [row num] [col num] = (dataset[row_num] [col num] - minimum) / 


(maximum - minimum) 

看 一 下 参数 dataset。 它 是 一 个 引用 ， 指 向 即将 在 原 地 被 修改 的 列表 的 列表 。 换 句 话说， 
normalize by feature_scaling() 收 到 的 不 是 数据 集 的 副本 ， 而 是 对 原始 数据 集 的 引用 。 
这 里 是 要 对 值 进行 修改 ， 而 不 是 接收 转换 过 的 副本 。 

另外 请 注意 ， 本 程序 假定 数据 集 是 由 ELoat 类 型 数据 构成 的 二 维 列 表 。 

















7.5.2 经典 的 营 尾 花 数据 集 


就 像 经 典 计算 机 科学 问题 一 样 , 机 器 学 习 中 也 有 经 典 的 数据 集 。 这 些 数据 集 可 用 于 验证 新 技 
R, 并 与 现 有 技术 进行 比较 。 它 们 还 能 用 作 首 次 学 习 机 器 学 习 算法 的 良好 起 点 。 最 著名 的 机 器 学 
习 数 据 集 或 许 就 是 高 尾 花 数据 集 了 。 该 数据 集 最 初 收集 于 20 世纪 30 年 代 ,包含 150 NEEE 
很 漂亮 ) 植物 样本 ， 分 为 3 个 不 同 的 品种 ， 每 个 品种 50 个 样本 。 每 种 植物 以 4 种 不 同 的 属性 进 
行 考量 : SHIRE. FHE, FERRER BEAVER SOE 

值得 注意 的 是 ， 神 经 网 络 并 不 关心 各 个 属性 所 代表 的 含义 。 它 的 训练 模型 并 不 会 区 分 碍 
片 长 度 和 花瓣 长 度 的 重要 程度 。 如 果 需 要 进行 这 种 区 分 ， 则 由 该 神经 网 络 的 用 户 进 行 适当 的 
调整 。 

本 书 附带 的 源码 库 包含 了 一 个 以 芒 尾 花 数 据 集 为 特征 值 的 去 号 分 隔 值 (CSV ) 文件 SE 
花 数据 集 来 自 美国 加 利 福 尼 亚 大 学 的 UCI 机 器 学 习 库 CSV 文件 只 是 一 个 文本 文件 , 其 值 以 去 
号 分 隔 。CSV 文件 是 表格 式 数据 ( 包括 电子 表格 ) 的 通用 交换 格式 。 



























































D 襄 尾 花 数 据 库 也 能 从 本 书 的 GitHub 上 获取 。 
© M. Lichman 的 UCI Machine Learning Repositorg( Irvine,CA: University of California, School of Information 
and Computer Science, 2013 )。 
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以 下 是 iris.csv 中 的 一 些 数据 行 : 


ake 


a en fs B® Oo 
aj 


UIR 

每 行 代表 一 个 数据 点 ， 其 中 的 4 个 数字 分 别 代表 4 PHR H 
PAEIT )， 再 次 声明 ， 它 们 实际 代表 的 意义 是 无 所 谓 的 。 每 行 末 尾 的 名 称 代 表意 尾 花 的 特定 
品种 。 这 5 行 都 属于 同一 品种 ,因为 此 样本 是 从 iris.csv 文件 开头 读 取 的 , 3 类 品种 数据 是 各 自 放 


4,0. 

4,0. 
3:..23-4...37:0). 
,O. 

4,0. 





2,Iris-setosa 


2,Iris-setosa 


2,Iris-setosa 


2,Iris-setosa 


2,Iris-setosa 








在 一 起 保存 的 ， 每 个 品种 都 有 50 行 数据 。 


为 了 从 磁盘 读 取 CSV 文件 ,我 们 将 会 用 到 Python 标准 库 中 的 一 些 函 数 。csv 模块 将 有 助 于 
我 们 以 结构 化 的 方式 读 取 数据 。 内 置 的 open () 函数 将 会 创建 一 个 用 于 传 给 csv .reader () 的 
文件 对 象 。 在 代码 清单 7-14 中 ,， 除 这 几 行 读 取 文件 的 代码 之 外 ， 其 余 都 只 是 对 CSV 文件 中 的 数 





据 进行 重新 排列 ， 以 备 神经 网 络 训练 和 验证 之 用 。 





代码 清单 7-14  iris_test.py 


import csv 


from 
from 
from 


from 


if name ==" 


typing import List 


util import normalize by feature scaling 


network import Network 


random import shuffle 


iris parameters: List[List[float]] = [] 


iris classifications: List[List[float]] = [] 


iris species: List[str] = [] 


with open('iris.csv', mode='r') as iris file: 
Pp = 


irises: 


List 


= list(csv.reader(iris file) ) 


shuffle(irises) # get our lines of data in random order 


for iris in irises: 


E CHEKE, YHE, ERKE 


parameters: List[float] = [float(n) for n in iris[0:4]] 


iris parameters.append (parameters) 
species: str = iris[4] 
if species == "Iris-setosa": 

iris classifications.append([1.0, 0.0, 
elif species == "Iris-versicolor": 

iris classifications.append([0.0, 1.0, 


else: 
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iris classifications.append([0.0, 0.0, 1.0]) 
iris species.append (species) 
normalize by feature scaling (iris parameters) 

iris_parameters 代表 每 个 样本 的 4 种 属性 集 ， 这 些 样本 将 用 于 对 营 尾 花 进行 分 类 。 
iris_classifications 是 每 个 样本 的 实际 分 类 。 此 处 的 神经 网 络 将 包含 3 个 输出 神经 元 ， 
每 个 神经 元 代表 一 种 可 能 的 品种 。 例 如 ， 最 终 输 出 的 [0.9，0.3，0.1] 将 代表 山 竟 尾 
(iris-setosa )， 因 为 第 一 个 神经 元 代表 该 品种 ， 这 里 它 的 数值 最 大 。 

为 了 训练 ,正确 答案 是 已 知 的 ,因此 每 条 车 尾 花 数据 都 带 有 预先 标记 的 答案 。 对 于 应 为 山 井 
ERRERA, iris classifications 中 的 数据 项 将 会 是 [1.0，0.0，0.0]。 这 些 值 洲 
用 于 计算 每 步 训练 后 的 误差 。 iris_species 直接 对 应 每 条 花 休 数据 应 该 归属 的 英文 类 别名 称 。 
山高 尾 在 数据 集中 将 被 标记 为 "Iris-setosa"。 











X 








警告 上 述 代码 中 缺少 了 错误 检查 代码 ， 这 会 让 代码 变 得 相当 危险 ， 因 此 这 些 代码 不 适用 于 生产 环 
境 ， 但 用 来 测试 是 没有 问题 的 。 


代码 清单 7-15 中 的 代码 定义 了 神经 网 络 对 象 。 


代码 清单 7-15 iris_test.py ( 2 ) 


iris network: Network = Network([4, 6, 3], 0.3) 

layer_structure 参数 给 定 了 包含 3 (1 个 输入 层 、! 个 隐藏 民 和 !1 个 输出 层 ) 的 网 络 
[4，6，3] 。 输 入 层 包含 4 个 神经 元 ， 隐 藏 层 包含 6 个 神经 元 ， 输 出 层 包 含 3 个 神经 元 。 输 入 
层 中 的 4 个 神经 元 直接 映射 到 用 于 对 每 个 样本 进行 分 类 的 4 个 参数 。 输 出 层 中 的 3 个 神经 元 直接 
映射 到 3 个 不 同 的 品种 ， 对 于 每 次 的 输入 ， 我 们 都 要 分 类 为 这 3 个 品种 。 与 其 他 一 些 公式 相 比 ， 
隐藏 层 的 6 个 神经 元 存放 的 更 多 是 一 些 尝试 和 误差 的 结果 。learning_rate 也 是 如 此 。 如 果 神 
经 网 络 算法 的 准确 度 不 够 理想 ， 不 妨 多 次 尝试 这 两 个 值 ( 隐藏 层 中 的 神经 元 数量 和 学 习 率 )。 具 
体 代 码 如 代码 清单 7-16 所 示 。 





代码 清单 7-16 iris_test.py ( 续 ) 


def iris interpret _output(output: List[float]) -> str: 
if max(output) == output [0] : 
return "Iris-setosa" 
elif max (output) == output[1]: 
return "Iris-versicolor" 
else: 


return "Iris-virginica" 


iris interpret output () 是 一 个 实用 函数 ,将 会 被 传 给 神经 网 络 对 和 象 的 valigdate () 
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方法 ， 用 于 识别 正确 的 分 类 。 
至 此 ,终于 可 以 对 神经 网 络 对 象 进行 训练 了 。 具 体 代码 如 代码 清单 7-17 所 示 。 


代码 清单 7-17 iris_test.py ( 4 ) 
# train over the first 140 irises in the data set 50 times 
iris trainers: List[List[float]] = iris_parameters[0:140] 
iris trainers corrects: List[List[float]] = iris classifications[0:140] 
for in range(50): 


iris network.train(iris trainers, iris trainers corrects) 


这 里 将 对 150 条 竟 尾 花 数据 集 的 前 140 条 进行 训练 。 还 记得 吧 ， 从 CSV 文件 中 读 取 的 数据 
行 是 经 过 重新 排列 的 。 这 确保 了 每 次 运行 程序 时 ， 训 练 的 都 是 数据 集 的 不 同 子 集 。 注 意 ， 这 140 
AS EAE RES BAG 50 次 。 训 练 的 次 数 将 对 神经 网 络 的 训练 时 间 产 生 很 大 影响 。 一 般 来 说 ， 
训练 次 数 越 多 ， 神 经 网 络 算法 就 越 准确 。 最 后 的 测试 代码 将 会 用 数据 集中 的 最 后 10 ARES EER 
据 来 验证 分 类 的 正确 性 。 具 体 代码 如 代码 清单 7-18 所 示 。 





代码 清单 7-18 iris_test.py ( 续 ) 


# test over the last 10 of the irises in the data set 


iris testers: List[List[float]] = iris parameters[140:150] 
iris testers corrects: List[str] = iris species[140:150] 
iris results = iris network.validate (iris testers, iris testers corrects, iris_ 


interpret output) 


print (f"{iris results[0]} correct of {iris results[1]} = {iris_results[2] * 100}%") 

上 述 所 有 工作 引出 了 最 终 求 解 的 问题 : 在 数据 集中 随机 选取 10 条 竟 尾 花 数据 ， 这 里 的 神经 
网 络 对 象 可 以 对 其 中 多 少 条 数据 进行 正确 分 类 ? 每 个 神经 元 的 起 始 权重 都 是 随机 的 , 因此 每 次 不 
同 的 运行 都 可 能 会 得 出 不 同 的 结果 。 不 妨 试 着 对 学 习 率 、 隐 藏 神经 元 的 数量 和 训练 迭代 次 数 进行 
调整 ， 以 便 让 神经 网 络 对 象 变 得 更 加 准确 。 

最 终 应 该 会 得 出 类 似 如 下 的 结 


9 correct of 10 = 90.0% 


7.5.3 ”葡萄酒 的 分 类 


下 面 将 用 另 一 个 数据 集 对 本 章 的 神经 网 络 模 型 进行 测试 , 该 数据 集 是 基于 对 多 个 意大利 葡萄 
酒 品种 的 化 学 分 析 得 来 的 "。 数 据 集中 有 178 个 样本 。 使 用 方式 与 营 尾 花 数 据 集 大 致 相同 ， 只 是 








@ M. Lichman 的 UCI Machine Learning Repository (Irvine, CA: University of California, School of Information 
and Computer Science, 2013 )。 
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CSV 文件 的 布局 稍 有 差别 。 下 面 给 出 一 个 示例 : 


1,14. 
1,13. 
1,13. 
1,14. 
rd: 


23,1.71,2.43,15.6,127,2.8,3.06, .28,2.29,5.64,1.04,3.92,1065 
2,1.78,2.14,11.2,100,2.65,2.76, .26,1.28,4.38,1.05,3.4,1050 
16,2.36,2.67,18.6,101,2.8,3.24,.3,2.81,5.68,1.03,3.17,1185 
37,1.95,2.5,16.8,113,3.85,3.49, .24,2.18,7.8, .86,3.45,1480 
24, 2.5997 2.817 217118; 2.8; Z «697 23971..8274 532,71. .047-2.937,-735 





每 行 的 第 一 个 值 一 定 是 1 到 3 之 间 的 整数 , 代表 该 条 样本 为 3 个 品种 之 一 。 但 请 注意 这 里 用 
于 分 类 的 参数 更 多 一 些 。 在 音 尾 花 数 据 集中 ， 只 有 4 个 参数 。 而 在 这 个 葡萄 酒 数据 集中 ， 则 有 
13 个 参数 。 

本 章 的 神经 网 络 模型 的 扩展 性 非常 好 ， 这 里 只 需 增 加 输入 神经 元 的 数量 即 可 。wine_testpy 
类 似 于 iris_testpy， 但 为 了 适应 数据 文件 的 布局 差异 而 进行 了 一 些微 小 的 改动 。 具 体 代 码 如 代码 
清单 7-19 所 示 。 


代码 清单 7-19 wine _test.py 


import csv 


from 
from 
from 


from 


if 





typing import List 
util import normalize by feature scaling 
network import Network 


random import shuffle 


name == "_ main": 


wine parameters: List[List[float]] = [] 


wine classifications: List[List[float]] = [] 


wine species: List[int] = [] 


with open('wine.csv', mode='r') as wine file: 
P 


wines: List = list(csv.reader(wine file, quoting=csv.QUOTE NONNUMERIC) ) 
shuffle(wines) # get our lines of data in random order 
for wine in wines: 
parameters: List[float] = [float(n) for n in wine[1:14]] 
wine parameters.append (parameters) 
species: int = int (wine[0]) 
if species == 
wine classifications.append([1.0, 0.0, 0.0]) 
elif species == 
wine classifications.append([0.0, 1.0, 0.0]) 
else: 
wine classifications.append([0.0, 0.0, 1.0]) 


wine species.append (species) 


normalize by feature _scaling(wine parameters) 
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如 前 所 述 , 在 这 个 葡萄 酒 分 类 的 神经 网 络 模型 中 ,， 层 的 参数 需要 用 到 13 个 输入 神经 元 
( 每 个 参数 一 个 神经 元 )。 此 外 还 需要 3 个 输出 神经 元 。( 葡萄 酒 品种 有 3 种 ， 就 像 有 3 SS 
尾 花 一 样 。 ) 有 意思 的 是 ， 虽 然 隐藏 层 中 神经 元 的 数量 少 于 输入 层 中 神经 元 的 数量 ， 但 该 神 
经 网 络 对 象 的 运行 效果 还 算 不 错 。 一 种 直观 的 解释 可 能 是 ， 某 些 输入 参数 其 实 对 分 类 没有 
帮助 ， 在 处 理 过 程 中 将 它们 剔除 会 很 有 意义 。 当 然 ， 事 实 上 这 并 不 是 隐藏 层 中 神经 元 的 数 
量 减少 却 仍 能 正常 工作 的 原因 ,但 这 种 直观 的 想法 还 是 挺 有 趣 的 。 具 体 代码 如 代码 清单 7-20 
所 示 。 








代码 清单 7-20 wine _test.py ( 续 ) 





wine network: Network = Network([13, 7, 3], 0.9) 


与 之 前 一 样 , 不 妨 试验 一 下 不 同 数量 的 隐藏 层 神经 元 或 不 同 的 学 习 率 ,这 会 很 有 趣 的 。 具 体 
代码 如 代码 清单 7-21 所 示 。 

















代码 清单 7-21 wine _test.py ( 续 ) 


def wine interpret output (output: List[float]) -> int: 
if max(output) == output [0] : 
return 1 
elif max (output) == output[1]: 
return 2 
else: 
return 3 


wine interpret output () 类似 于 iris interpret output()。 因 为 没有 葡萄 酒 品 
种 的 名 称 ， 所 以 这 里 只 能 采用 原 数 据 集 给 出 的 整数 值 。 具 体 代码 如 代码 清单 7-22 所 示 。 


代码 清单 7-22 wine _test.py ( 续 ) 
# train over the first 150 wines 10 times 
wine trainers: List[List[float]] = wine parameters[0:150] 
wine trainers corrects: List[List[float]] = wine classifications[0:150] 
for in range(10): 


wine network.train(wine trainers, wine trainers corrects) 


数据 集中 的 前 150 个 样本 将 用 于 训练 ， 剩 下 最 后 28 个 样本 将 用 于 验证 。 样 本 的 训练 次 数 为 
10 次 ， 明 显 少 于 训练 童 尾 花 数据 集 的 50 次 。 不 知 出 于 何 种 原因 ( 可 能 是 数据 集 的 固有 特性 ， 也 
可 能 是 学 习 率 和 隐藏 神经 元 数量 这 些 参数 有 调整 )， 该 数据 集 只 需要 少 于 药 尾 花 数 据 集 的 训练 次 
数 就 能 达到 高 于 高 尾 花 数据 集 的 准确 度 。 具 体 代码 如 代码 清单 7-23 所 示 。 
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代码 清单 7-23 wine _test.py ( 续 ) 


# test over the last 28 of the wines in the data set 











wine_testers: List[List[float]] = wine _parameters[150:178] 
wine_testers corrects: List[int] = wine _species[150:178] 
wine results = wine network.validate (wine testers, wine testers corrects, wine_ 


interpret_output) 


print (£"{wine_results[0]} correct of {wine_results[1]} = {wine_results[2] * 100}%" 
运气 不 错 ， 这 个 神经 网 络 模型 应 该 能 很 准确 地 对 28 个 样本 进行 分 类 。 


27 correct of 28 = 96.42857142857143% 
16 为 神经 网 络 提速 


神经 网 络 需 要 用 到 很 多 向 量 /矩阵 方面 的 数学 知识 。 从 本 质 上 说 ， 这 意味 着 要 读 取 数 据 列表 
并 立即 对 所 有 数据 项 进行 某 种 操作 。 随 着 机 器 学 习 在 社会 生活 中 不 断 推广 应 用 , 经 过 优化 的 高 性 
能 向 量 /和 矩阵 数学 库 变 得 越 来 越 重要 了 。 其 中 有 很 多 库 充 分 利用 了 GPU, 因为 GPU 对 上 述 用 途 进 
行 过 优化 。 向 量 / 和 矩阵 是 计算 机 图 形 学 的 核心 内 容 。 大 家 可 能 对 一 个 较 早 的 库 规范 已 有 所 耳闻 ， 
这 个 库 规范 就 是 基础 线性 代数 子 程序 ( Basic Linear Algebra Subprogram, BLAS )。NumPy 是 一 种 
流行 的 Python 数值 库 ， 它 就 是 以 BLAS 为 基础 的 。 

除 GPU 之 外 ,CPU 还 具有 能 够 加 速 向 量 /矩阵 处 理 的 扩展 指令 -NumPy 中 就 包括 一 些 函 数 ， 
这 些 函 数 采 用 了 单 指 令 多 数据 (Single Instruction, Multiple Data, SIMD ) 指令 集 。SIMD 指令 
是 一 种 特殊 的 微 处 理 器 指令 ， 人 允许 一 次 处 理 多 条 数据 。 有 时 SIMD 会 被 称 为 向 量 指令 (vector 
instruction )。 

不 同 的 微 处 理 器 包含 的 SIMD 指令 也 不 一 样 。 例 如 ，G4 的 SIMD 扩展 指令 (21 世纪 00 年 
代 早 期 Mac 中 的 PowerPC 架构 处 理 器 ) 被 称 为 AltiVec。 与 iPhone 中 的 微 处 理 器 一 样 ，ARM 微 
处 理 需 具有 名 为 NEON 的 扩展 指令 。 现代 Intel 微 处 理 需 则 包含 名 为 MMX 、SSE、SSE2 和 SSE3 
的 SIMD 扩展 指令 。 幸 运 的 是 ， 大 家 不 需要 知道 这 些 指令 有 什么 差异 。NumpPy 之 类 的 库 会 自动 
选择 正确 的 指令 ， 以 便 基 于 程序 当前 所 处 的 底层 架构 实现 高 效 计算 。 

因此 ， 现 实 世 界 中 的 神经 网 络 库 〈 与 本 章 的 玩具 库 不 同 ) 会 采用 NumPy 数组 作为 基本 的 数 
据 结构 , 而 不 用 Python 标准 库 中 的 列表 , 这 并 不 令 人 意外 ,但 它们 做 的 远 不 止 这 些 。 像 TensorFlow 
和 PyTorch 这 类 流行 的 Python 神经 网 络 库 , 不 仅 采用 SIMD 指令 , 而 且 大 量 运用 GPU 进行 计算 。 
由 于 GPU 明确 就 是 为 快速 向 量 计 算 而 设计 的 ， 因 此 与 只 在 CPU 上 运行 相 比 ，GPU 能 将 神经 网 
络 的 运行 速度 提升 一 个 数量 级 。 

请 明确 一 点 : 绝 不 能 像 本 章 这 样 只 用 Python 的 标准 库 来 简单 地 实现 神经 网 络 产品 ， 而 应 采 
用 经 过 高 度 优化 的 、 启 用 了 SIMD 和 GPU 的 库 ， 如 TensorFlow。 只 有 以 下 情况 是 例外 ， 即 为 教 
学 而 设计 或 是 只 能 在 没有 SIMD 指令 或 GPU 的 舱 入 式 设备 上 运行 的 神经 网 络 库 。 
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1] 神经 网 络 问题 及 其 扩展 


得 益 于 在 深度 学 习 方面 所 取得 的 进步 ， 神 经 网 络 现在 正在 风靡 , 但 它 有 一 些 显 著 的 缺点 。 最 
大 的 问题 是 神经 网 络 解决 方案 是 一 种 类 似 于 黑 盒 的 模型 。 即 便 运 行 一 切 正 常 , 用 户 也 无 法 深入 了 
解 神经 网 络 是 如 何 解决 问题 的 。 例 如 , 在 本 章 中 我 们 构建 的 功 尾 花 数据 集 分 类 程序 并 没有 明确 展 
示 输 入 的 4 个 参数 分 别 对 输出 的 影响 程度 。 在 对 每 个 样本 进行 分 类 时 , 苯 片 长 度 比 划 片 宽度 更 为 
重要 吗 ? 

如 果 对 已 训练 网 络 的 最 终 权重 进行 仔细 分 析 , 是 有 可 能 得 出 一 些 见解 的 , 但 这 种 分 析 并 不 容 
易 , 并 且 无 法 做 到 像 线性 回归 算法 那么 精深 , 线性 回归 可 以 对 被 建 模 的 函数 中 每 个 变量 的 作用 做 
出 解释 。 换 句 话 说， 神经 网 络 可 以 解决 问题 ， 但 不 能 解释 问题 是 如 何 解决 的 。 

神经 网 络 的 另 一 个 问题 是 ,为 了 达到 一 定 的 准确 度 ， 通常 需要 数据 量 庞大 的 数据 集 。 想 象 一 
下 户外 风景 图 的 分 类 程序 。 它 可 能 需要 对 数 千 种 不 同类 型 的 图 像 ( 森林 、 山 谷 、 山 脉 、 溪 ° 流 、 草 
原 等 ) 进行 分 类 。 训 练 用 图 可 能 就 需要 数 百 万 张 。 如 此 大 型 的 数据 集 不 但 难以 获取 ,而 且 对 菜 些 
应 用 程序 而 言 可 能 根本 就 不 存在 。 为 了 收集 和 存储 如 此 庞大 的 数据 集 而 拥有 数据 仓库 和 技术 设施 
的 ， 往 往 都 是 大 公司 和 政府 机 构 。 

最 后 , 神经 网 络 的 计算 代价 很 高 。 可 能 大 家 已 经 注意 到 了 ,只 是 芒 尾 花 数据 集 的 训练 过 程 就 
能 让 Python 解释 器 不 堪 重 负 。 纯 Python 环境 下 (不 带 NumPy 之 类 的 C 支持 库 ) 的 计算 性 能 是 
不 太 理想 , 但 最 要 紧 的 是 , 在 任何 采用 神经 网 络 的 计算 平台 上 , 训练 过 程 都 必须 执行 大 量 的 计算 ， 
这 会 耗费 很 多 时 间 。 提 升 神经 网 络 性 能 的 技巧 有 很 多 ( 如 使 用 SIMD 指令 或 GPU ), 但 训练 神经 
网 络 终究 还 是 需要 执行 大 量 的 浮 点 运算 。 

有 一 条 告诫 非常 好 ,就 是 训练 神经 网 络 比 实际 运用 神经 网 络 的 计算 成 本 高 。 某 些 应 用 程序 
不 需要 持续 不 断 的 训练 。 在 这 些 情况 下 ， 只 要 把 训练 完毕 的 神经 网 络 放 入 应 用 程序 ， 就 能 开始 
求解 问题 了 。 例 如 ，Apple 的 Core ML 框架 的 第 一 个 版 本 甚至 不 支持 训练 。 它 只 能 帮助 应 用 程 
序 开发 人 员 在 自己 的 应 用 程序 中 运行 已 训练 过 的 神经 网 络 模型 。 照 片 应 用 程序 的 开发 人 员 可 以 
下 载 免费 的 图 像 分 类 模型 ， 将 其 放 和 Core ML， 马 上 就 能 开始 在 应 用 程序 中 使 用 高 性 能 的 机 器 
学 习 算 法 了 。 

本 章 只 构建 了 一 类 神经 网 络 ， 即 带 反 向 传播 的 前 馈 网 络 。 如 上 所 述 , 还 有 很 多 其 他 类 型 的 神 
经 网 络 。 卷 积 神经 网 络 也 是 前 馈 的 ,但 它 具 有 多 个 不 同类 型 的 隐藏 层 、 各 种 权重 分 配 机 制 和 其 
他 一 些 有 意思 的 属性 ,使 其 特别 适用 于 图 像 分 类 。 而 在 反馈 神经 网 络 中 ,信号 不 只 是 往 一 个 方 
向 传播 。 它 们 允许 存在 反馈 回路 ,并 已 经 证 明 能 有 效应 用 于 手写 识别 和 语音 识别 等 连续 输入 类 
应 用 。 

我 们 可 以 对 本 章 的 神经 网 络 进行 一 种 简单 的 扩展 ， 即 引入 偏 置 神经 元 (bias neuron ), 
这 会 提升 网 络 的 性 能 。 偏 置 神经 元 就 像 某 个 层 中 的 一 个 虚拟 神经 元 ( dummy neuron ), E fè 
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许 下 一 层 的 输出 能 够 表达 更 多 的 函数 ， 这 可 以 通过 给 定 一 个 常量 输入 ( 仍 通过 权重 进行 修 
改 ) 来 实现 。 在 求解 现实 世界 的 问题 时 ， 即 便 是 简单 的 神经 网 络 通常 也 会 包含 偏 置 神经 元 。 
如 果 在 本 章 的 现 有 神经 网 络 中 添加 了 偏 置 神经 元 ， 我 们 可 能 只 需 较 少 的 训练 就 能 达到 相近 
级 别 的 准确 度 。 









































18 现实 世界 的 应 用 


尽管 人 工 神经 网 络 在 20 世纪 中 叶 就 已 被 首次 设想 出 来 ,但 直到 近 十 年 才 变 得 司空 见 惯 。 由 
于 缺乏 性 能 足够 强大 的 硬件 ， 人 工 神 经 网 络 的 广泛 应 用 曾经 饱 受 阻碍 。 现 在 机 带 学 习 领 域 中 增长 
最 火爆 的 就 是 人 工 神经 网 络 了 ， 因 为 它们 确实 有 效 ! 

近 几 十 年 以 来 ,人 工 神经 网 络 已 经 实现 了 一 些 最 激动 人 心 的 用 户 交 互 类 计算 应 用 , 包括 实用 
语音 识别 (准确 度 足 够 实用 )、 图 像 识 别 和 手写 识别 。 语 音 识别 应 用 存在 于 Dragon Naturally 
Speaking 之 类 的 录入 辅助 程序 和 Siri, Alexa, Cortana 等 数字 助理 中 。Facebook 运用 人 脸 识 别 技 
术 自 动 为 照片 中 的 人 物 打 上 标记 , 这 是 图 像 识别 应 用 的 一 个 实例 。 在 最 新 版 的 iOS 中 , 可 以 用 手 
写 识 别 功能 搜索 记事 本 中 的 内 容 ， 哪 怕 内 容 是 手写 的 也 没 问题 。 

光学 字符 识别 (Optical Character Recognition, OCR ) 是 一 种 早期 的 识别 技术 ， 神 经 网 络 可 
以 为 其 提供 引擎 。 扫描 文档 时 会 用 到 OCR 技术 , 它 返 回 的 不 是 图 像 , 而 是 可 供 选 择 的 文本 。 OCR 
技术 能 让 收费 站 读 取 车 牌 信息 ， 还 能 让 邮政 服务 对 信件 进行 快速 分 拣 。 

本 章 已 演示 了 神经 网 络 可 成 功 应 用 于 分 类 问题 。 神 经 网 络 能 够 获得 良好 表现 的 类 似 应 用 还 有 
推荐 系统 。 不 妨 考 虑 一 下 ，Netflix 推荐 了 你 可 能 喜欢 的 电影 ，Amazon 推荐 了 你 可 能 想 读 的 书 。 
还 有 其 他 一 些 机 器 学 习 技术 也 适用 于 推荐 系统 ( Amazon 和 Netflix 不 一 定 将 神经 网 络 用 于 推荐 系 
统 ， 它 们 的 系统 似乎 是 专用 的 )， 因 此 只 有 对 所 有 可 用 技术 都 做 过 研究 之 后 ， 才 应 该 考虑 采用 神 
经 网 络 。 

任何 需要 近似 计算 某 个 未 知 函 数 的 场合 ,都 可 以 使 用 神经 网 络 ,， 这 使 它们 很 擅长 预测 。 可 以 
用 神经 网 络 来 预测 体育 赛事 、 选 举 或 股票 市 场 的 结果 ,事实 上 也 确实 如 此 。 当 然 , 预测 的 准确 程 
度 就 要 看 训练 有 多 好 , 与 未 知 结果 事件 相关 的 可 用 数据 集 有 多 大 ,神经 网 络 的 参数 调 优 程度 如 何 ， 
以 及 训练 要 迭代 多 少 次 了 。 像 大 多 数 神经 网 络 应 用 一 样 , 用 于 预测 时 最 大 的 难点 之 一 就 是 确定 神 
经 网 络 本 身 的 结构 ， 最 终 往往 还 是 得 靠 反 复试 错 来 确定 。 






















































































































































































19 习题 


1. 用 本 章 中 开发 的 神经 网 络 框架 对 其 他 数据 集 进 行 分 类 。 
2. 创建 一 个 通用 版 的 parse_CSV () 函数 ， 其 参数 要 足够 灵活 ， 用 以 替换 本 章 的 两 个 CSV 
解析 示例 。 























158 








第 7 章 十 分 简单 的 神经 网 络 




















， 淮 试 运用 其 他 激活 函数 来 运行 本 章 的 示例 。( 请 记得 还 要 求 出 激活 函数 的 导数 。) 改变 激 





活 函数 将 对 神经 网 络 的 准确 度 产 生 什 么 影响 ? 训练 的 次 数 需要 增加 还 是 减少 ? 








. 用 流行 的 神经 网 络 框架 ( 如 TensorFlow 或 PyTorch ) 重新 创建 解决 方案 ， 解 决 本 章 给 出 


的 示例 问题 。 


.用 Numpy 重 写 Network, Layer 和 Neuron 类 ， 以 加 速 本 章 中 开发 的 神经 网 络 的 执行 。 
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所 谓 双 人 、 零 和 (zero-sum )、 全 信息 (perfect information ) 的 对 弈 游戏 ， 是 指 对 弈 双方 均 拥 
有 关于 游戏 状态 的 所 有 信息 ,并 且 一 方 获得 优势 就 意味 着 另 一 方 失去 优势 。 并 字 棋 (tic-tac-toe )、 
四 子 棋 ( Connect Four )、 跳 棋 和 国际 象棋 都 属于 这 类 游戏 。 在 本 章 中 我 们 将 研究 如 何 创 造 一 个 棋 
艺 高 超 的 人 造 游戏 棋 手 。 实 际 上 ,本章 中 所 讨论 的 技术 与 现代 计算 能 力 相 结合 ,可 以 创造 出 一 个 
完美 玩 转 这 类 简单 游戏 的 人 造 棋 手 , 并 且 这 个 人 造 棋 手 能 够 应 对 很 多 超出 所 有 人 类 棋 手 能 力 的 复 






























































8.1 棋盘 游戏 的 基础 组 件 


与 本 书 中 大 多 数 更 复杂 的 问题 一 样 ， 解 决 方案 应 该 尽 可 能 保持 通用 。 对 于 对 抗 搜索 
(adversarial search ) 而 言 ， 这 意味 着 搜索 算法 不 能 仅 适 用 于 某 个 游戏 。 下 面 就 从 定义 一 些 简单 的 
基 类 开始 ， 这些 基 类 定义 了 搜索 算法 需要 用 到 的 所 有 状态 。 稍 后 ,我 们 可 以 为 特定 的 游戏 ( 井 字 
棋 和 四 子 棋 ) 生成 该 基 类 的 子 类 ， 并 把 子 类 提供 给 搜索 算法 从 而 开始 “ 玩 ” 游 戏 。 代 码 清单 8-1 
给 出 了 这 些 基 类 。 


代码 清单 8-1 board.py 


from future import annotations 











from typing import NewType, List 
from abc import ABC, abstractmethod 


Move = NewType('Move', int) 


class Piece: 


@property 
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def opposite(self) -> Piece: 


raise NotImplementedError ("Should be implemented by subclasses.") 


class Board(ABC): 
@property 
@abstractmethod 


def turn(self) -> Piece: 


@abstractmethod 


def move(self, location: Move) -> Board: 


@property 
@abstractmethod 


def legal moves (self) -> List[Move]: 


@property 
@abstractmethod 


def is win(self) -> bool: 


@property 
def is draw(self) -> bool: 

return (not self.is win) and (len(self.legal_ moves) == 0) 
@abstractmethod 


def evaluate(self, player: Piece) -> float: 





Move 类 型 代表 游戏 中 的 一 步 棋 (move )， 本 质 上 它 只 是 一 个 整数 。 在 井 字 棋 和 四 子 棋 之 类 
的 游戏 中 ， 可 以 用 整数 来 表示 一 步 棋 ， 指 示 棋 子 应 该 放置 在 哪个 方 格 或 列 。Piece 是 一 个 基 类 ， 
用 于 表示 游戏 棋盘 上 的 棋子 。Piece 还 兼 有 回合 指示 器 的 作用 ， 因 此 它 需 要 带 有 opposite 
性 。 我 们 必须 知道 给 定 回合 之 后 该 轮 到 谁 走 棋 了 。 

提示 因为 在 井 字 棋 和 四 子 棋 游 戏 中 每 人 只 有 一 种 棋子 ， 所 以 Piece 类 在 本 章 中 可 以 兼 有 回合 指 
示 器 的 作用 。 而 对 于 像 国际 象棋 这 种 更 复杂 的 游戏 ， 棋 子 的 类 型 有 很 多 种 ， 回 合 可 以 用 一 个 整数 或 
布尔 值 来 指示 。 或 者 ， 更 复杂 的 Piece 类 型 也 可 以 用 “颜色 ”属性 来 指示 回合 。 


棋盘 的 状态 实际 是 由 抽象 基 类 Board 维护 的 。 针 对 本 章 搜索 算法 将 要 计算 的 游戏 ， 我 们 需 
要 能 够 回答 以 下 4 个 问题 : 





















































Hl 







































































8.2 HFH 161 





该 轮 到 谁 走 啦 ? 
在 当前 位 置 上 有 哪些 符合 规则 的 走 法 ? 
游戏 有 人 赢 了 吗 ? 
游戏 平局 了 吗 ? 

对 很 多 游戏 而 言 ， 最 后 的 是 否 平局 问题 实际 上 是 前 两 个 问题 的 组 合 。 如 果 游 戏 没有 人 赢 ,也 
没有 符合 规则 的 棋 步 可 走 ， 那 就 是 出 现 平局 了 。 因 此 抽象 基 类 Game 就 带 了 is_draw 属性 的 具 
体 实现 。 此 外 ， 我 们 还 需要 能 实现 以 下 操作 : 

m 从 当前 位 置 走 到 新 的 位 置 ; 

m 评估 当前 位 置 ， 看 看 哪 位 玩家 占据 了 优势 。 

Board 的 每 个 方法 和 属性 分 别 代表 了 上 述 某 个 问题 或 操作 。 在 游戏 术语 中 ，Board 类 也 可 
以 被 称 作 “棋局 ”( Position )， 但 这 里 我 们 将 用 该 命名 来 表示 每 个 子 类 中 更 具体 的 内 容 。 














8.2” 井 字 棋 


井 字 棋 游 戏 的 确 十 分 简单 ， 但 它 一 样 可 以 用 于 说 明 极 小 化 极 大 算法 (minimax algorithm ), 
该 算法 可 以 应 用 于 四 子 棋 、 跳 棋 和 国际 象棋 等 更 高 级 的 策略 游戏 。 下 面 我 们 将 构建 一 个 运用 极 小 
化 极 大 策略 完美 玩 转 井 字 棋 游 戏 的 AL 
























































注意 本 节 假 定 读者 已 熟悉 了 井 字 棋 游 戏 及 其 标准 规则 。 如 果 没 有 的 话 , 只 要 在 互联 网 上 搜索 一 下 ， 
应 该 就 能 很 快 明白 。 








8.2.1 井 字 棋 的 状态 管理 


先 来 开发 一 些 数据 结构 ， 以 便 能 跟随 井 字 棋 游戏 的 进度 记录 其 状态 。 

首先 ， 我 们 需要 一 种 方法 来 表示 井 字 棋盘 上 的 每 个 方 格 。 这 里 将 采用 名 为 TTTPiece 的 枚 
举 类 ， 它 是 Piece 的 子 类 。 井 字 棋 的 棋子 可 以 是 XxX、0 或 空 (在 枚 举 中 用 EE 表示 )。 具 体 代码 如 
代码 清单 8-2 所 示 。 


代码 清单 8-2 tictactoe.py 


from future import annotations 











from typing import List 
from enum import Enum 


from board import Piece, Board, Move 


class TTTPiece (Piece, Enum): 
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X = "X 

o = "o" 

E=" " # stand-in for empty 
@property 


def opposite(self) -> TTTPiece: 
if self == TTTPiece.X: 
return TTTPiece.O 
elif self == TTTPiece.0O: 
return TTTPiece.X 


else: 





return TTTPiece.E 


def str (self) -> str: 


return self.value 


TTTPiece 类 带 有 opposite 属性 ,并 返回 一 个 新 的 TTTPiece。 当 走 完 一 步 井 字模 之 后 ， 
就 要 从 一 个 玩家 的 回合 翻转 到 另 一 个 玩家 的 回合 , 这 时 上 述 设置 就 比 















































较 有 用 了 。 每 步 棋 只 需要 用 一 个 整数 来 表示 ， 该 整数 对 应 于 棋盘 上 可 oiai 
放置 棋子 的 方 格 。 回 想 一 下 , 在 board py 中 已 将 Move 定义 为 整数 了。 = [gles 

JPEE 3 行 3 列 组 成 ,共有 9 个 位 置 。 为 简单 起 见 , 这 9 个 ”一 一 
位 置 可 以 用 一 维 列表 来 表示 。 每 个 方 格 的 数字 表示 方案 ( 数组 中 的 索 

















引 ) 可 以 随意 设计 ， 这 里 将 遵照 图 8-1 中 所 示 的 方案 。 图 8-1 与 井 字模 盘 方 格 
棋盘 状态 将 主要 保存 在 TTTBoard 类 中 。TTTBoard 将 跟踪 记 。 ” 对 应 的 一 维 列表 索引 

录 两 种 不 同 的 状态 : 位 置 (由 前 面 提 到 过 的 一 维 列表 来 表示 ) 和 轮 到 的 玩家 。 具 体 代 码 如 代码 清 
单 8-3 所 示 。 

















代码 清单 8-3 tictactoe.py ( 2 ) 


class TTTBoard(Board): 


def init (self, position: List[TTTPiece] = [TTTPiece.E] * 9, turn: TTTPiece = 
TTTPiece.X) -> None: 
self.position: List[TTTPiece] = position 


self. turn: TTTPiece = turn 


@property 
def turn(self) -> Piece: 
return self. turn 


默认 棋盘 是 尚未 下 过 的 空 棋盘 。Board 的 构造 函数 带 有 默认 参数 , 将 棋局 初始 化 为 空 , 并 
HÆ X 先 走 ( 井 字 棋 的 开局 玩家 通常 为 Xx )。 大 家 或 许 想 知道 ， 为 什么 既 有 _turn 实例 变量 ， 
MA turn 属性 。 这 是 一 种 技巧 ， 用 以 确保 所 有 Board 的 子 类 都 能 记录 当前 轮 到 哪个 玩家 了 。 
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在 Python 中 , 没有 明确 的 方式 能 在 抽象 基 类 中 指定 子 类 必须 包含 某 个 实例 变量 , 但 属性 有 这 种 


机 制 。 

TTTBoard 是 一 种 非 正式 的 不 可 变数 据 结构 ， 请 勿 对 TTTBoard 变量 做 出 修改 。 每 次 要 走 
一 步 棋 时 ,都 会 生成 一 个 包含 每 一 步 的 位 置 变 动 过 的 新 TTTBoard。 在 本 搜索 算法 中 ,这 种 做 法 
将 很 有 用 处 ,因为 在 搜索 分 支 时 , 我们 就 不 会 无 意 间 对 仍 处 于 分 析 可 能 走 法 的 棋局 做 出 改动 。 具 
体 代码 如 代码 清单 8-4 所 示 。 





代码 清单 8-4 tictactoe.py ( 续 


def move(self, location: Move) -> Board: 
temp position: List[TTTPiece] = self.position.copy () 
temp_position[location] = self. turn 
return TTTBoard(temp position, self. turn.opposite) 


在 井 字 棋 游戏 中 , 空 的 方 格 都 是 可 落 子 的 。 代 码 清单 8-5 中 的 legal_moves 属性 将 用 列表 
推导 式 为 给 定 棋局 生成 可 能 的 走 法 。 


代码 清单 8-5 tictactoe.py ( # ) 


@property 
def legal moves (self) -> List[Move]: 


return [Move(l) for 1 in range(len(self.position)) if self.position[1] == TTTPiece.E] 


列表 推导 式 的 操作 对 象 是 位 置 列表 中 的 int 索引 。 为 方便 起 见 〈《 也 是 有 意 如 此 ), Move 也 
被 定义 为 int 类 型 ， 这 才 使 得 Tegal_moves 的 定义 能 够 如 此 简洁 。 

为 了 判断 玩家 是 否 语 了 游戏 ， 需 要 扫描 井 字 棋盘 的 行 、 列 和 对 角 线 ， 扫 描 的 方案 有 很 多 种 。 
代码 清单 8-6 中 的 is_win 属性 的 实现 代码 采用 了 硬 编 码 方式 ， 看 起 来 就 是 不 停 地 组 合 运 用 了 
and, or 和 == 操 作 。 这 算 不 上 是 最 漂亮 的 代码 ， 但 能 直 白 地 完成 任务 。 








代码 清单 8-6 tictactoe.py ( # ) 


@property 
def is win(self) -> bool: 


# three row, three column, and then two diagonal checks 























return self.position[0] == self.position[1] and self.position[0] == self.position[2 
and self.position[0] != TTTPiece.E or \ 

self.position[3] == self.position[4] and self.position[3] == self.position[5 
and self.position[3] != TTTPiece.E or \ 

self.position[6] == self.position[7] and self.position[6] == self.position[8 
and self.position[6] != TTTPiece.E or \ 

self.position[0] == self.position[3] and self.position[0] == self.position[6 
and self.position[0] != TTTPiece.E or \ 
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self.position[1] == self.position[4] and self.position[1] == self.position[7 
and self.position[1] != TTTPiece.E or \ 

self.position[2] == self.position[5] and self.position[2] == self.position[8 
and self.position[2] != TTTPiece.E or \ 

self.position[0] == self.position[4] and self.position[0] == self.position[8 
and self.position[0] != TTTPiece.E or \ 

self.position[2] == self.position[4] and self.position[2] == self.position[6 
and self.position[2] != TTTPiece.E 























如 果 所 有 行 、 列 或 对 角 线 上 的 方 格 都 不 为 空 ， 并 且 包含 相同 的 棋子 ， 就 启 了 。 
如 果 没 万 也 没有 地 方 可 沙子 了 ， 那 么 这 就 是 平局 ， 抽 象 基 类 Board 已 包含 平局 的 属性 。 最 
后 ,我 们 还 需要 有 评估 棋局 和 将 棋盘 美观 打印 出 来 的 方法 。 具 体 代码 如 代码 清单 8-7 所 示 。 


代码 清单 8-7 tictactoe.py ( 续 ) 


def evaluate(self, player: Piece) -> float: 



































if self.is win and self.turn == player: 
return -1 

elif self.is win and self.turn != player: 
return 1 

else: 


return 0 


def repr (self) -> str: 
return £"""{self.position[0]}|{self.position[1]}|{self.position[2] } 


{self.position[6]}|{self.position[7]}|{self.position[8]}""" 


要 想 根 据 已 走 的 棋 步 一 直 搜索 到 游戏 结束 来 确定 输赢 , 这 是 难以 实现 的 , 因此 对 大 多 数 游戏 
而 言 ， 对 某 个 棋局 的 评分 结果 应 该 是 一 个 近似 值 。 但 是 井 字 棋 的 搜索 空间 很 小 , 足以 从 任何 棋局 
开始 搜索 到 结束 。 因 此 ，evaluate () 方法 可 以 简单 地 返回 一 个 数字 ， 赢 则 返回 一 个 最 大 的 数 ， 
平局 则 返回 小 一 点 的 数 ， 输 则 返回 再 小 一 点 的 数 。 



































8.2.2 ” 极 小 化 极 大 算法 

知 要 在 双人 、 零 和 、 全 信息 的 对 弈 游戏 ( 如 井 字 棋 、 跳 棋 或 国际 象棋 ) 中 找到 最 佳 走 法 ,， 极 
小 化 极 大 策略 是 一 种 经 典 算 法 。 它 已 经 对 其 他 类 型 的 游戏 进行 了 扩展 和 修改 。 极 小 化 极 大 算法 通 
常 采 用 递归 函数 来 实现 ， 这 时 两 个 玩家 要 么 是 极 大 化 玩家 ,要么 是 极 小 化 玩家 。 

极 大 化 玩家 的 目标 是 找到 能 获得 最 大 收益 的 走 法 。 但 是 , 极 大 化 玩家 必须 考虑 极 小 化 玩家 
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的 走 法 。 在 每 次 试图 求 出 极 大 化 玩家 的 最 大 收益 后 ， 递 归 地 调用 minimax () 以 求 得 对 手 的 回 
P, 也 就 是 让 极 大 化 玩家 的 收益 最 小 化 的 走 法 。 这 个 过 程 一 直 来 回 进行 ( 求 最 大 值 、 求 最 小 值 、 
求 最 大 值 等 )， 直 到 达到 递归 函数 的 基线 条 件 。 基 线条 件 为 终局 ( 赢 或 平局 ) 或 达到 最 大 搜索 
深度 。 

调用 minimax O 将 返回 极 大 化 玩家 的 起 始 位 置 的 评分 。 就 TTTBoard 类 的 evaluate () 
方法 而 言 ,如 果 双 方 的 最 佳 走 法 将 导致 极 大 化 玩家 获胜 , 则 返回 1 分 。 如 果 最 佳 走 法 将 导致 极 大 
化 玩家 输 棋 ， 则 返回 -1 分 。 如 果 最 佳 走 法 将 导 臻 平局 ， 则 返回 0 分 。 

这 个 分 数 将 会 在 达到 基线 条 件 时 返回 。 然 后 ,再 沿 着 达到 基线 条 件 的 各 层 递归 调用 逐 级 向 上 
返回 。 对 于 每 次 求 最 大 值 的 递归 调用 ,向 上 返回 的 是 下 一 步 走 法 的 最 佳 评分 。 对 于 每 次 求 最 小 值 
的 递归 调用 ， 向 上 返回 的 是 下 一 步 走 法 的 最 差 评分 。 这样， 决策 树 就 建立 起 来 了 。 图 8-2 呈现 了 
这 样 一 棵 决策 树 ， 有 助 于 厘清 还 剩 最 后 两 步 的 一 局 横向 上 返回 评分 的 过 程 。 

对 于 搜索 空间 太 深 而 无 法 抵达 终局 的 游戏 ( 例如 跳棋 和 国际 象棋 ) minimax () 会 在 到 达 一 
定 深度 后 停止 。 要 搜索 的 棋 步 数 深度 有 时 被 称 为 “ 层 ”( ply )。 然 后 启动 评分 函数 ， 采 用 启发 法 
对 棋局 进行 评分 。 游 戏 对 初始 玩家 越 有 利得 分 就 越 高 。 我 们 在 介绍 四 子 棋 时 将 会 再 回来 讨论 这 
个 概念 ， 四 子 棋 的 搜索 空间 比 井 字 横 的 搜索 空间 大 多 了 。 

代码 清单 8-8 中 给 出 的 就 是 minimax () 的 全 部 内 容 。 


代码 清单 8-8 minimax.py 


from future import annotations 





















































from board import Piece, Board, Move 


# Find the best possible outcome for original player 

def minimax (board: Board, maximizing: bool, original player: Piece, max depth: int = 8) 
=> float: 
# Base case - terminal position or maximum depth reached 
if board.is win or board.is draw or max depth == 0: 


return board.evaluate (original player) 


# Recursive case - maximize your gains or minimize the opponent's gains 
if maximizing: 
best_eval: float = float("-inf") # arbitrarily low starting point 
for move in board.legal_moves: 
result: float = minimax (board.move (move), False, original player, max depth - 1) 
best_eval = max (result, best _eval) 
return best_eval 
else: # minimizing 


worst_eval: float = float ("inf") 
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for move in board.legal_moves: 
result = tiga od node noe True, original player, max depth - 1) 
worst eval = min(result, worst eval) 
return worst eval 
在 每 次 递归 调用 过 程 中 ,无 论 当 前 是 极 大 化 玩家 还 是 极 小 化 玩家 ,或 者 是 对 
original_player 的 棋局 进行 评分 ， 都 需要 跟踪 记录 棋局 。minimax () 的 前 几 行 代码 负责 处 
理 基线 条 件 : 末端 节点 〈 赢 、 输 或 平局 ) 或 到 达 的 最 大 深度 。minimax () 函数 的 其 余部 分 是 对 
递归 情况 的 处 理 。 
























































X |0 |xX 
回合 0: 
BO X 得 分 为 1 
求 最 大 值 

X O 

Max (1, 0) 
X|O]X X|O|]X 

回合 1: 
轮 到 X 走 X 得 分 为 1 O X 得 分 为 0 


求 最 小 值 





X 
回合 2: 
轮 到 0 走 O X 得 分 为 0 
REKI 
X|X|O 








图 8-2 一 局 井 字 棋 的 极 小 化 极 大 决策 树 ， 该 棋局 还 剩 最 后 两 步 棋 。 为 了 让 获胜 的 可 能 性 最 大 化 ， 
初始 玩家 O 将 选择 在 底部 中 心 位 置 落 子 。 箭 头 指 明 做 出 决策 的 位 置 












































其 中 一 种 递归 情况 是 求 最 大 值 , 这 时 需要 查找 能 够 生成 最 高 评分 的 走 法 。 另 一 种 递归 情况 是 
求 最 小 值 ， 这 时 查找 的 是 导致 最 低 评分 的 走 法 。 这 两 种 情况 交替 进行 , 直至 抵达 终局 状态 或 最 大 
深度 ( 基线 条件 )。 

不 幸 的 是 ， 只 是 原封 不 动 地 用 minimax () 无 法 找 出 给 定 棋 局 的 最 佳 走 法 。 它 只 能 返回 一 个 
SHEL (一 个 float 类 型 值 )， 而 无 法 给 出 生成 该 评分 的 最 佳 的 第 一 步 该 怎么 下 。 

于 是 我 们 要 创建 一 个 辅助 函数 find_best_move () 来 为 某 棋局 中 每 一 步 合 法 的 走 法 循 
环 调 用 minimax () ， 以 便 找 出 评分 最 高 的 走 法 。 我 们 可 以 将 find best_move () 视 作 对 



































8.2 Ft 167 


minimax () 的 第 一 次 求 最 大 值 调用 ， 只 是 带 上 了 初始 的 棋 步 而 已 。 具 体 代 码 如 代码 清单 8-9 
所 示 。 


代码 清单 8-9 minimax.py (4 ) 


# Find the best possible move in the current position 
# looking up to max depth ahead 
def find best move (board: Board, max depth: int = 8) -> Move: 
best_eval: float = float("-inf") 
best_move: Move = Move (-1) 
for move in board.legal_moves: 
result: float = minimax (board.move (move), False, board.turn, max depth) 
if result > best_eval: 
best_eval = result 
best_move = move 


return best_move 


现在 万 事 俱 备 ， 我 们 可 以 开始 搜索 任何 井 字 棋局 的 最 佳 走 法 了 。 





8.2.3 用 井 字 棋 测 试 极 小 化 极 大 算法 


井 字 棋 游戏 十 分 简单 , 因此 人 类 能 够 轻松 找 出 对 于 给 定 棋局 的 绝对 正确 的 走 法 。 这 样 单 元 测 
试 就 很 容易 开发 了 。 在 代码 清单 8-10 所 示 的 代码 段 中 , 本 章 的 极 小 化 极 大 算法 将 迎接 挑战 , 为 3 
种 不 同 的 井 字 棋局 查找 下 一 步 的 正确 走 法 。 第 一 个 棋局 很 容易 ， 只 需要 考虑 下 一 步 如 何 语 棋 。 第 
二 个 棋局 需要 挡 一 手 (block), mH. AI 必须 阻止 对 手 获胜 。 最 后 一 个 棋局 的 挑战 性 稍 强 一 点 ， 
需要 AI 思考 后 面 的 两 步 棋 。 


代码 清单 8-10 tictactoe_tests.py 


import unittest 

from typing import List 

from minimax import find best move 

from tictactoe import TTTPiece, TTTBoard 


from board import Move 


class TTTMinimaxTestCase (unittest.TestCase) : 
def test_easy position(self): 
# win in 1 move 
to win easy position: List[TTTPiece] = [TTTPiece.X, TTTPiece.O, TTTPiece. 
X, TTTPiece.X, TTTPiece.E, TTTPiece.O, TTTPiece.E, TTTPiece.E, TTTPiece.0O] 
test boardl: TTTBoard = TTTBoard(to_win_easy position, TTTPiece.X) 


answerl: Move = find best _ move (test boardl) 
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self.assertEqual(answerl, 6) 


def test block position(self): 


# must block O's win 


to block position: List[TTTPiece] = [TTTPiece.xX, TTTPiece.E, 


TTTPiece.E, 


TTTPiece.E, TTTPiece.E, TTTPiece.O, TTTPiece.E, TTTPiece.X, TTTPiece.0O] 


test_board2: TTTBoard = TTTBoard(to_block_position, TTTPiece.X) 


answer2: Move = find best _move(test_board2) 


self.assertEqual(answer2, 2) 


def test_hard_position(self): 


# find the best move to win 2 moves 


to win hard position: List[TTTPiece] = [TTTPiece.X, TTTPiece.E, TTTPiece.E, 


TTTPiece.E, TTTPiece.E, TTTPiece.O, TTTPiece.O, TTTPiece.X, TTTPiece.E] 


test_board3: TTTBoard = TTTBoard(to_win_hard_position, TTTPiece.X) 


answer3: Move = find best _move(test_board3) 
self.assertEqual (answer3, 1) 


if name == '_ main _': 


unittest.main () 


运行 tictactoe tests.py 的 时 候 ，3 个 测试 过 程 都 应 该 都 能 顺利 通过 。 








提示 “实现 极 小 化 极 大 算法 并 没有 用 太 多 的 代码 ， 而 且 该 算法 不 但 可 以 用 于 井 字 游戏 ， 而 且 可 以 用 
于 很 多 其 他 游戏 。 如 果 你 想 要 为 其 他 游戏 实现 极 小 化 极 大 算法 ， 那 么 走向 成 功 的 重要 一 点 就 是 ， 创 
建 与 极 小 化 极 大 算法 设计 方案 相 适 应 的 数据 结构 ， 类 似 于 Board 类 。 学 习 极 小 化 极 大 算法 存在 一 
个 常见 错误 ， 即 采用 可 修改 的 数据 结构 ， 这 种 数据 结构 在 极 小 化 极 大 算法 的 递归 调用 过 程 中 会 被 改 









































动 ， 因 此 无 法 回 到 原始 状态 进行 再 次 调用 。 








8.2.4 ”开发 井 字 棋 AI 


现在 所 有 组 件 都 已 就 绪 , 接 下 来 就 简单 了 , 就 可 以 开发 一 个 完整 的 能 够 走 完 一 局 井 字 不 














其 的 人 

















THFT. A 不 再 是 对 测试 棋局 进行 评分 ， 而 是 要 对 两 个 棋 手 下 棋 形 成 的 棋局 进行 评分 。 在 代 














码 清单 8-11 所 示 的 代码 段 中 ， 井 字 棋 AI 将 会 与 执 先 手 的 人 类 横 手 进行 对 战 。 





代码 清单 8-11 tictactoe_ai.py 


from minimax import find best move 
from tictactoe import TTTBoard 


from board import Move, Board 


board: Board = TTTBoard() 
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def get player move() -> Move: 
player move: Move = Move (-1) 
while player move not in board.legal_moves: 
play: int = int (input ("Enter a legal square (0-8):")) 
player move = Move (play) 


return player move 


if _name == "_ main 
# main game loop 
while True: 
human_move: Move = get player move () 
board = board.move (human_move) 
if board.is_ win: 
print ("Human wins!") 
break 
elif board.is draw: 
print ("Draw!") 
break 
computer move: Move = find best move (board) 
print (f"Computer move is {computer_move}") 
board = board.move (computer_move) 
print (board) 
if board.is win: 
print ("Computer wins!") 
break 
elif board.is draw: 
print ("Draw!") 
break 
为 find_best_move () PHY max_depth 默认 为 8, 所 以 这 个 井 字 棋 AI 一定 能 分 析 完 游 
戏 终局 。 井 字 棋 最 多 只 能 走 9 步 ， 而 此 AI 是 后 手 。 因 此 ， 它 应 该 能 完美 下 完 每 一 局 。 完 美的 游 
戏 是 指 两 个 棋 手 在 每 个 回合 中 都 能 走出 最 佳 的 走 法 。 完 美的 井 字 棋 结 果 就 是 平局 。 有 鉴于 此 , JF 
PH AI 应 该 是 不 可 战胜 的 。 如 果 人 类 竭尽 全 力 ， 最 多 也 就 是 平局 。 如 果 人 类 走 错 一 步 ，AI 就 会 
赢 棋 。 请 尝试 一 下 吧 。AfI 应 该 不 会 输 棋 。 













































































83 ”四 子 棋 
在 四 子 棋 游戏 中 ， 两 名 玩家 在 7 列 6 行 的 垂直 棋盘 网 格 中 交替 落下 各 自 不 同 颜色 的 棋子 。 





























@ Connect Four 是 Hasbro 公司 的 注册 商标 。 本 书 仅 


st 


述 问 题 。 








ag 
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棋子 从 棋盘 网 格 项 部 往 底部 下 落 , 直至 碰 到 底部 或 其 他 棋子 。 其 实 玩家 在 每 个 回合 中 唯一 要 做 的 
决策 就 是 把 棋子 落 入 7 列 中 的 哪 一 列 。 玩 家 可 能 不 会 把 棋子 落 入 全 满 的 列 。 只 要 首先 有 4 个 同色 
棋子 沿 着 行 、 列 或 对 角 线 紧密 相连 ， 中 间 没 有 断 开 ,， 则 其 玩家 就 获胜 。 如 果 没 有 玩家 能 做 到 这 一 
点 ， 且 棋盘 网 格 被 完全 填 满 ， 那 么 游戏 结果 就 是 平局 。 
































8.3.1 四 子 棋 游戏 程序 


四 子 棋 游戏 在 很 多 方面 都 类 似 于 井 字 棋 。 这 两 种 游戏 都 在 棋盘 网 格 上 进行 ,都 需要 玩家 把 棋 
子 排 成 一 排 来 赢 棋 。 但 由 于 四 子 棋 的 棋盘 网 格 比较 大 ， 赢 棋 的 情形 有 很 多 ,因此 棋局 的 评分 过 程 
要 复杂 很 多 。 

代码 清单 8-12 中 的 代码 有 一 些 貌似 很 熟悉 ， 但 数据 结构 和 评分 方法 与 井 字 棋 完 全 不 同 。 这 
两 段 游戏 代码 都 实现 为 本 章 开 头 介 绍 的 基 类 Piece Fil Board 的 子 类 ,使 得 minimax () 可 被 这 
两 段 游戏 代码 共享 。 























代码 清单 8-12 connectfour.py 


from future import annotations 
from typing import List, Optional, Tuple 
from enum import Enum 


from board import Piece, Board, Move 


class C4Piece(Piece, Enum): 


B = "pB" 
R = "R" 

E =" " # stand-in for empty 
@property 


def opposite(self) -> C4Piece: 
if self == C4Piece.B: 
return C4Piece.R 
elif self == C4Piece.R: 
return C4Piece.B 
else: 


return C4Piece.E 


def str (self) -> str: 


return self.value 


C4Piece 类 几乎 与 TTTPiece 类 完全 相同 。 
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接 下 来 是 一 个 函数 ， 用 于 在 指定 大 小 的 四 子 棋 棋 盘 网 格 中 生成 可 能 赢 棋 的 所 有 网 格 区 段 
(segment )。 具 体 代 码 如 代码 清单 8-13 所 示 。 


代码 清单 8-13 ”connectfour.py ( 2 ) 


def generate _ segments (num columns: int, num_rows: int, segment length: int) -> 
List[List[Tuple[int, int]]]: 
segments: List[List[Tuple[int, int]]] = [] 
# generate the vertical segments 
for c in range(num_columns): 
for r in range(num_rows - segment length + 1): 
segment: List[Tuple[int, int]] = [] 
for t in range(segment_ length): 
segment.append((c, r + t)) 


segments.append (segment) 


# generate the horizontal segments 
for c in range(num_columns - segment length + 1): 
for r in range (num rows): 
segment = [] 
for t in range(segment_ length): 
segment.append((c + t, r)) 


segments.append (segment) 


# generate the bottom left to top right diagonal segments 


for c in range(num_columns - segment length + 1): 
for r in range(num_rows - segment_length + 1): 
segment = [] 


for t in range (segment length): 
segment.append((c + t, r + t)) 


segments.append (segment) 


# generate the top left to bottom right diagonal segments 


for c in range(num_columns - segment_length + 1): 
for r in range(segment_length - 1, num_rows): 
segment = [] 


for t in range (segment length): 
segment.append((c + t, r - t)) 
segments.append (segment) 


return segments 
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上 述 函 数 将 会 返回 一 个 列表 的 列表 ， 表 示 棋 盘 网 格 中 的 方位 ( 由 列 / 行 组 成 的 元 组 )。 每 个 子 
列表 包含 4 个 网 格 方位 。 这 4 个 网 格 方位 组 成 的 列表 被 称 为 一 个 区 段 。 只 要 棋盘 上 有 任何 区 段 具 
有 相同 的 颜色 ， 那 么 这 种 颜色 的 玩家 就 主 了 。 

无 论 是 为 了 检查 游戏 是 否 结束 (AAMI )， 还 是 为 了 对 棋局 进行 评分 ， 能 够 对 棋盘 中 所 有 
区 段 进 行 快速 搜索 都 将 很 有 意义 。 

因此 在 代码 清单 8-14 所 示 的 代码 段 中 ， 我 们 将 会 缓存 给 定 大 小 棋盘 中 的 所 有 区 段 ， 存 放 在 
C4Board 类 中 名 为 SEGMENTS 的 类 变量 中 。 














代码 清单 8-14 connectfour.py ( 2 ) 


class C4Board (Board): 
NUM_ROWS: int = 6 
NUM_COLUMNS: int = 7 
SEGMENT LENGTH: int = 4 
SEGMENTS: List[List[Tuple[int, int]]] = generate segments (NUM_COLUMNS, NUM ROWS, 





SEGMENT LENGTH) 


C4Board 类 中 有 一 个 名 为 Column 的 内 部 类 。 这 个 类 并 非 绝 对 必要 ， 因 为 我 们 可 以 像 井 字 
棋 程 序 那 样 用 一 维 列表 表示 棋盘 网 格 , 或 者 用 二 维 列 表 也 行 。 与 这 两 种 方案 相 比 ， 用 Column 
类 可 能 会 略微 降低 一 些 性 能 。 但 是 将 四 子 棋 棋 盘 视 为 7 列 的 组 合 ， 在 概念 上 很 给 力 ， 能 够 让 
C4Board 类 的 其 余部 分 更 加 容易 编写 。 具 体 代码 如 代码 清单 8-15 所 示 。 


代码 清单 8-15 connectfour.py ( 续 ) 


class Column: 














def init__(self) -> None: 


self. container: List[C4Piece] = [] 


@property 
def full(self) -> bool: 


return len(self. container) == C4Board.NUM_ROWS 


def push(self, item: C4Piece) -> None: 
if self.full: 
raise OverflowError("Trying to push piece to full column") 


self. container.append (item) 


def getitem (self, index: int) -> C4Piece: 
if index > len(self. container) - 1: 


return C4Piece.E 
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return self. container [index] 


def repr (self) -> str: 


return repr(self. container) 


def copy(self) -> C4Board.Column: 


temp: C4Board.Column C4Board.Column () 


self. 


temp. container _container.copy () 


return temp 


Column 类 与 之 前 章节 中 用 到 的 Stack 类 非常 相像 。 
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这 是 有 道理 的 ， 因 为 从 概念 上 讲 ， 四 


子 棋 的 列 在 游戏 过 程 中 就 是 一 个 能 够 压 入 但 从 不 弹出 的 栈 。 但 与 之 前 的 栈 不 同 , 四 子 棋 中 的 列 有 


一 个 绝对 的 限制 ， 即 数据 项 不 会 超过 6 个 。 特 殊 方 法 getitem _ 
Column 实例 用 索引 做 下 标 引 用 。 这 样 Column 的 列表 就 可 以 被 视 为 二 
层 的 _container 在 某 些 行 不 包含 数据 项 ， ”getitem () 仍 会 返回 一 


接 下 来 的 4 个 方法 与 井 字 棋 游 戏 程序 中 的 对 应 方法 类 似 。 


代码 清单 8-16 connectfour.py ( 续 


() 也 挺 有 意思 ， 它 允许 


es 请 注意 ， 如 果 底 











F, 





具体 代码 如 代码 清单 8-16 所 示 。 





def init (self, position: Optional[List[C4Board.Column]] = None, turn: C4Piece = 
C4Piece.B) -> None: 
if position is None: 
self.position: List[C4Board.Column] = [C4Board.Column() for _ in range 
(C4Board.NUM_ COLUMNS) ] 
else: 
self.position = position 
self. turn: C4Piece = turn 
@property 
def turn(self) -> Piece: 
return self. turn 
def move(self, location: Move) -> Board: 


temp position: List [C4Board.Column] 


for c in range (C4Board.NUM COLUMNS) : 


temp_position[c] self.position[c] .copy() 


temp _position[location].push(self. turn) 


return C4Board(temp position, self. turn.opposite) 


@property 


self.position.copy () 
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def legal_moves (self) -> List[Move]: 
return [Move(c) for c in range(C4Board.NUM COLUMNS) if not self.position[c].full] 


助手 方法 _count_segment () 将 返回 指定 区 段 中 黑色 和 红色 棋子 的 数量 。 接 下 来 是 检查 输赢 
的 方法 is_win () ， 它 查看 棋盘 中 的 所 有 区 段 来 确定 是 否 有 人 赢 ， 方 法 是 用 _count_segment () ff 
定 是 否 有 区 段 包含 4 个 同色 棋子 。 具 体 代码 如 代码 清单 8-17 所 示 。 


代码 清单 8-17 connectfour.py ( 续 ) 


# Returns the count of black and red pieces in a segment 




















def count _segment (self, segment: List[Tuple[int, int]]) -> Tuple[int, int]: 
black count: int = 0 
red_count: int = 0 
for column, row in segment: 
if self.position[column] [row] == C4Piece.B: 
black count += 1 
elif self.position[column] [row] == C4Piece.R: 
red_count += 1 


return black count, red_count 


@property 
def is win(self) -> bool: 
for segment in C4Board.SEGMENTS: 
black count, red_count = self. count _segment (segment) 
if black_count == 4 or red_count == 4: 
return True 


return False 

与 TTTBoard —#, C4Board 可 以 不 加 改动 地 使 用 抽象 基 类 Board 的 is draw 属性 。 

最 后 , 为 了 对 整个 棋局 进行 评分 , 我们 将 会 对 其 全 部 区 段 进 行 逐 一 评分 , 返回 评分 的 累加 结 
Ro 同时 包含 红色 和 黑色 棋子 的 区 段 将 不 得 分 。 包含 两 个 同色 棋子 和 两 个 空 棋子 的 区 段 将 被 视 为 
得 1 分 。 包含 3 个 同色 棋子 得 分 为 100。 最 后 ， 包 含 4 个 同色 棋子 (AAWE) 的 区 段 得 分 为 
1 000 000。 如 果 该 区 段 属 于 对 手 ， 则 得 分 为 负数 。_evaluate_segment () 是 一 个 助手 方法 ， 
用 上 述 公 式 对 某 个 区 段 进行 评分 。 所 有 经 过 _evaluate_segment () 评分 的 区 段 ， 其 总 分 由 
evaluate() 生 成。 具体 代码 如 代码 清单 8-18 所 示 。 


代码 清单 8-18 connectfour.py ( 续 ) 


def evaluate _ segment (self, segment: List[Tuple[int, int]], player: Piece) -> float: 




















black count, red_count = self. count segment (segment) 


if red_count > 0 and black count > 0: 
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return 0 # mixed segments are neutral 
count: int = max(red_count, black count) 
score: float = 0 
if count == 2: 
score = 1 
elif count == 
score = 100 
elif count == 
score = 1000000 
color: C4Piece = C4Piece.B 
if red count > black_count: 
color = C4Piece.R 
if color != player: 
return -score 


return score 


def evaluate(self, player: Piece) -> float: 
total: float = 0 
for segment in C4Board.SEGMENTS: 
total += self. evaluate segment (segment, player) 


return total 


def repr (self) -> str: 
display: str = "" 
for r in reversed(range(C4Board.NUM ROWS) ) : 
display += "|" 
for c in range (C4Board.NUM COLUMNS) : 
display += £"{self.position[c][r]}" + "|" 
display += "\n" 


return display 


8.3.2 POF Al 


我 们 为 井 字 棋 开 发 的 minimax() 和 find _ best _move () 函数 ， 可 以 不 加 修改 地 直接 供 四 
子 棋 实现 代码 使 用 , 这 很 神奇 吧 。 代 码 清单 8-19 所 示 的 代码 段 与 井 字 棋 AI 代码 只 有 一 点 点 不 同 。 
最 大 的 区 别 就 是 ， 现 在 max_depth 设 成 了 3。 这 能 把 计算 机 每 一 步 的 思考 时 间 控 制 在 合理 范围 
内 。 换 句 话 说， 这 里 的 四 子 棋 AI 最 多 只 能 看 到 后 3 步 的 (评分 ) 棋局 。 
































J 





代码 清单 8-19 connectfour_ai.py 


from minimax import find best move 


from connectfour import C4Board 
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from board import Move, Board 
board: Board = C4Board() 


def get player move() -> Move: 
player move: Move = Move (-1) 
while player move not in board.legal_moves: 
play: int = int (input ("Enter a legal column (0-6):")) 
player move = Move (play) 


return player move 


if name == "_main_": 
# main game loop 
while True: 
human_move: Move = get player move () 
board = board.move (human_move) 
if board.is win: 
print ("Human wins!") 
break 
elif board.is draw: 
print ("Draw!") 
break 
computer move: Move = find best_move (board, 3) 
print (f"Computer move is {computer_move}") 
board = board.move (computer_move) 
print (board) 
if board.is_win: 
print ("Computer wins!") 
break 
elif board.is draw: 
print ("Draw!") 


break 


请 试 着 运行 一 下 上 述 四 子 棋 AL 程序 。 与 井 字 棋 AI 不 同 , 它 对 于 每 一 步 的 生成 都 需要 耗费 
几 秘 的 时 间 。 除 非 你 仔细 思考 每 一 步 棋 ， 否 则 它 仍 有 可 能 会 获胜 。 至 少 它 不 会 犯 任何 明显 的 钳 
误 。 通 过 增加 搜索 的 深度 ,我 们 可 以 提升 它 的 游戏 水 平 ， 但 计算 机 每 走 一 步 的 计算 时 间 将 呈 指 
数 级 增长 。 






































8.3 ”四 子 棋 177 





提示 “你 知道 四 子 棋 游戏 已 经 被 计算 机 科学 家 “解决 ”了 吗 ? 游戏 的 “解决 ”意味 着 我 们 对 任何 棋 
局 下 的 最 佳 走 法 都 已 弄 清 楚 了 。 最 佳 的 四 子 棋 开 局 走 法 是 把 棋子 放 在 中 间 列 。 





























8.3.3 H a-p 剪 枝 算法 优化 极 小 化 极 大 算法 


极 小 化 极 大 算法 的 效果 很 好 , 但 目前 还 没 法 实现 很 深 的 搜索 。 极 小 化 极 大 算法 有 一 个 小 扩展 
算法 ， 被 称 为 a-p 34% (alpha-beta pruning ) 算法 ， 在 搜索 时 能 将 不 会 生成 更 优 结果 的 棋局 排除 ， 
由 此 来 增加 搜索 的 深度 。 只 要 跟踪 记录 递归 调用 minimax () 间 的 两 个 值 a 和 p， 即 可 实现 神奇 
的 优化 效果 。a 表示 搜索 树 当前 找到 的 最 优 极 大 化 走 法 的 评分 ， 而 8 则 表示 当前 找到 的 对 手 的 最 
优 极 小 化 走 法 的 评分 。 如 果 5 小 于 或 等 于 a， 则 不 值得 对 该 搜索 分 支 做 进一步 搜索 ， 因 为 已 经 发 
现 的 走 法 比 继续 沿 着 该 分 支 搜 索 得 到 的 走 法 都 要 好 或 相当 。 这 种 启发 式 算法 能 显著 缩小 搜索 空 
间 。 

代码 清单 8-20 给 出 的 就 是 刚刚 介绍 的 alphabeta () 。 应 该 将 其 放 入 现 有 的 minimax.py X 
件 中 。 


代码 清单 8-20 minimax.py ( & ) 


def alphabeta(board: Board, maximizing: bool, original player: Piece, max depth: 








int = 8, alpha: float = float("-inf"), beta: float = float("inf")) -> float: 
# Base case - terminal position or maximum depth reached 
if board.is win or board.is draw or max depth == 0: 


return board.evaluate (original player) 


# Recursive case - maximize your gains or minimize the opponent's gains 
if maximizing: 
for move in board.legal_moves: 
result: float = alphabeta(board.move (move), False, original player, max_ 
depth - 1, alpha, beta) 
alpha = max(result, alpha) 
if beta <= alpha: 
break 
return alpha 
else: # minimizing 
for move in board.legal_moves: 
result = alphabeta(board.move (move), True, original player, max_depth - 1, 
alpha, beta) 
beta = min(result, beta) 


if beta <= alpha: 
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break 


return beta 


现在 可 以 做 两 处 很 小 的 改动 ， 以 便 让 上 述 新 函数 发 挥 作用 。 让 minimax.py 中 的 find_ 
best_move () 不 再 调用 minimax () ， 而 是 改 为 调用 alphabeta() ,并 将 connectfour ai.py 中 
的 搜索 深度 由 3 改 为 5。 有 了 这 些 改动 ， 普 通 的 四 子 棋 玩 家 将 无 法 击败 本 章 的 AI 了 。 在 我 的 计 
FALE, minimax () 的 搜索 深度 为 5， 四 子 棋 AI 每 步 大 约 耗 时 3 分 钟 ， 而 相同 深度 条 件 下 用 
alphabeta () 每 步 大 约 耗 时 30 秒 , 只 需要 六 分 之 一 的 时 间 ! 这 种 剪 枝 优化 的 效果 简直 令 人 难以 
置信 。 





















































8.4 超越 a-PARAROR DURA EMR 


本 章 对 算法 的 研究 已 经 非常 深入 了 , 多 年 来 已 经 发 现 了 很 多 优化 技术 。 其 中 一 些 优化 技术 是 
特定 于 某 种 游戏 的 ， 例 如 ， 用 于 国际 象棋 的 “位 棋盘 ”(bitboard ) 减少 了 合法 棋 步 的 生成 时 间 ， 
但 大 多 数 都 是 适用 于 任何 游戏 的 通用 技术 。 

有 一 种 常见 的 优化 技术 就 是 授 代 加 深 (iterative deepening ) 在 迭代 加 深 技术 中 , 搜索 函数 将 
先 以 最 大 深度 1 运行 ,然后 以 最 大 深度 2 运行 , 再 以 最 大 深度 3 运行 ,依次 类 推 。 达 到 指定 时 限 
时 ， 搜 索 停止 。 最 后 一 次 完成 的 搜索 深度 的 结果 将 会 被 返回 。 

在 本 章 的 示例 中 , 搜索 深度 是 被 硬 编码 的 。 如 果 游 戏 没有 时 钟 和 时 间 限 制 ， 或 者 我 们 不 关心 
计算 机 的 思考 时 长 ， 这 当然 没有 问题 。 和 迭代 加 深 技 术 使 得 AI 能 够 耗费 固定 时 长 来 找到 下 一 步 走 
法 ， 而 不 是 固定 的 搜索 深度 以 及 不 定 的 完成 时 长 。 

还 有 一 种 可 能 的 优化 技术 是 静态 搜索 (quiescence search )。 在 静态 搜索 技术 中 ， 极 小 化 极 大 
搜索 树 将 朝 着 会 让 棋局 发 生 巨 大 变化 的 路 线 ( 如 国际 象棋 中 的 吃 子 ) 行进 ， 而 不 是 朝 着 相对 “ 平 
静 ” 的 棋局 发 展 。 理 想 情况 下 ， 采 用 这 种 方案 搜索 不 会 将 计算 时 间 浪 费 在 无 聊 的 棋局 上 ， 也 就 是 
那些 不 会 让 玩家 获得 明显 优势 的 棋局 。 

极 小 化 极 大 搜索 的 最 佳 优化 方案 不 外 乎 两 种 , 一 种 是 在 规定 的 时 间 内 搜索 更 深 的 深度 ， 
男 一 种 就 是 改进 棋局 评分 函数 。 要 在 相同 时 间 内 搜索 更 多 的 棋局 ， 就 需要 减少 在 每 个 棋局 
上 耗费 的 时 间 ， 这 可 以 通过 提高 代码 效率 或 采用 运行 速度 更 快 的 硬件 而 获得 ， 但 也 可 能 会 
通过 后 一 种 改进 技术 (改进 棋局 评分 函数 ) 而 获得 。 采 用 更 多 的 参数 或 启发 式 算法 来 对 棋 
局 进行 评分 可 能 会 耗费 更 多 的 时 间 ， 但 最 终 能 够 获得 更 优质 的 引擎 ， 即 用 更 少 的 搜索 深度 
找到 最 优 走 法 。 

在 用 于 国际 象棋 游戏 的 带 a-p 剪 枝 (alpha-beta pruning ) 的 极 小 化 极 大 搜索 算法 中 ， 有 一 些 
评分 函数 具有 数 十 种 启发 式 算法 , 甚至 会 用 到 遗传 算法 对 这 些 启 发 式 算法 进行 调 优 。 国际 象棋 游 
戏 中 马 的 吃 子 应 该 评分 多 少 ? 与 象 的 得 分 一 样 吗 ? 要 区 分 一 个 国际 象棋 引擎 是 合格 还 是 优秀 , 这 
些 启发 式 算 法 就 是 秘密 武器 。 
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85 ”现实 世界 的 应 用 
极 小 化 极 大 算法 外 加 a-p 剪 校 之 类 的 扩展 ， 是 大 多 数 现代 国际 象棋 引擎 的 基础 。 这 已 被 广泛 











应 用 于 各 种 策略 游戏 中 并 取得 了 巨大 的 成 功 。 PRE, 计算 机 上 的 大 多 数 棋盘 游戏 类 人 工 棋 手 可 





能 都 用 到 了 茶 种 形式 的 极 小 化 极 大 算法 。 
极 小 化 极 大 算法 CPA a-p 剪 枝 之 类 的 扩展 ) 在 国际 象棋 中 如 此 有 效 以 致 导致 了 著名 的 1997 
年 发 生 的 “深蓝 ”( Deep Blue ) 事件 ,由 IBM 公司 制造 的 国际 象棋 计算 机 选手 “深蓝 ”击败 人 类 
































国际 象棋 世界 冠军 加 里 ， 卡 斯 由 罗 夫 (Gary Kasparov )。 这 场 比 赛 是 备 受 期 待 和 改变 游戏 规则 的 





事件 。 国际 象棋 曾 被 视 为 最 项 尖 的 智能 领域 。 计算机 在 国际 象棋 中 超越 了 人 类 的 能 力 , 这 个 事实 














意味 着 人 工 智 能 在 某 种 程度 上 应 该 被 认真 对 待 。 





20 多 年 后 的 今天 ， 绝 大 多 数 国际 象棋 引擎 仍然 基于 极 小 化 极 大 算法 。 今 天 ， 基 于 极 小 化 极 











大 算法 的 国际 象棋 


引擎 的 实力 已 远 超 世界 上 最 好 的 人 类 国际 象棋 选手 。 新 的 机 顺 学 习 技 术 正 在 开 

















始 挑战 纯粹 基于 极 小 化 极 大 算法 〈 带 扩展 ) 的 国际 象棋 引 敬 ,但 还 没有 明确 的 证 据 表 明 机 央 学 习 











技术 在 国际 象棋 中 














的 优势 。 


游戏 的 支 化 因子 ( branching factor ) 越 高 ， 极 小 化 极 大 算法 的 效果 就 会 越 差 。 支 化 因子 是 指 

















游戏 的 一 个 棋局 中 可 能 走 法 数量 的 平均 值 。 正 因为 如 此 , 围棋 中 的 计算 机 棋 手 最 近 取 得 的 一 些 进 
步 有 赖 于 机 器 学 习 之 类 的 其 他 领域 的 研究 。 现 在 ， 基 于 机 絮 学 习 的 围棋 AI 已 经 击败 了 最 好 的 人 
类 围棋 棋 手 。 围 棋 的 支 化 因子 ( 也 就 是 搜索 空间 ) 对 于 极 小 化 极 大 算法 来 说 简直 太 庞 大 了 ， 因 为 
这 种 算法 需要 尝试 生成 包含 未 来 棋局 的 决策 树 。 但 围棋 只 是 一 个 例外 ， 而 不 是 一 定之 规 。 大 多 数 
传统 棋盘 游戏 ( 如 跳棋 、 国 际 象棋 、 四 子 棋 、 拼 字 游 戏 等 ) 的 搜索 空间 都 比较 小 ， 基 于 极 小 化 极 
































大 算法 的 技术 可 足 




















以 应 对 了 。 














若 要 新 实现 一 个 棋盘 游戏 人 工 棋 手 ， 甚 至 是 回合 制 的 纯 计算 机 游戏 AI， 极 小 化 极 大 算法 可 























能 是 你 首先 应 该 接 


触 的 算法 。 极 小 化 极 大 算法 还 可 用 于 经 济 和 政治 领域 的 模拟 , 以 及 博弈 论 实验 。 





a-p 剪 枝 应 该 能 适用 于 任何 形式 的 极 小 化 极 大 算法 。 
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jæi 


常 工作 。 





wow N 


. tictactoe al 








.为 井 字 棋 程序 添加 单元 测试 ， 确 保 属性 legal moves、is win 和 is_draw 能 正 


， 为 四 子 棋 程 序 的 极 小 化 极 大 算法 创建 单元 测试 。 


.py 和 connectfour ai.py 的 代码 几乎 完全 相同 。 将 其 重 构 为 对 两 种 游戏 都 适用 


的 两 个 方法 。 
4. 修改 connectfour ai.py 的 代码 ， 让 计算 机 能 与 自己 捉 对 氛 杀 。 第 一 个 玩家 获胜 还 是 第 二 
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个 玩家 获胜 ? 每 次 都 是 同一 个 玩家 获胜 吗 ? 
5.， 你 能 为 connectfour.py 中 的 评分 函数 找到 一 种 优化 方案 (R 
其 在 相同 时 间 内 能 够 达到 更 大 的 搜索 深度 吗 ? 


上 用 现 有 代码 或 其 他 方式 ) 使 











6， 利 用 本 章 开发 的 alphabeta () 函数 以 及 能 够 生成 合法 棋 


步 及 维护 棋盘 状态 的 Python 








库 ， 开 发 一 个 国际 象棋 AI。 
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本 书 已 经 介绍 了 很 多 解决 问题 的 技术 , 这 些 技术 都 是 关于 现代 软件 开发 任务 的 。 为 了 研究 每 


一 种 技术 , 我 们 已 经 探讨 了 多 个 著名 的 计算 机 科学 问题 。 但 并 非 每 个 著名 问题 都 符合 前 儿童 的 模 











型 。 本 章 将 集中 介绍 那些 不 适合 归 和 其 他 章节 的 著名 问题 。 不 妨 把 这 些 问 题 视 为 意外 收获 : 多 了 





很 多 有 趣 的 问题 ， 所 需 的 代码 却 不 多 。 


9.1 





背包 问题 


背包 问题 (knapsack problem ) 其 实 是 一 种 常见 的 计算 需求 ， 给 定 一 组 有 限 的 可 选项 ， 找 出 








有 限 资 源 的 最 优 用 法 ， 再 把 它 编 成 一 个 有 趣 的 故事 。 小 偷 进入 一 户 人 家 要 偷 点 儿 东西 。 他 有 一 
个 背包 ,背包 的 容纳 能 力 限 制 了 他 能 偷 的 物品 。 他 怎样 算出 该 把 哪些 物品 放 进 背包 呢 ? 背包 问 


题 如 





yi 


图 9-1 所 示 。 


Tl 



















如 何 才能 让 \| 50 斤 ，500 美 元 _ 可 偷 的 物品 


偷 到 的 物品 一 
最 值钱 ? 
27, 
5 300 美 元 


200 斤 ，700 美 元 





S E 3 斤 ，1000 美 元 
图 9-1 ”小偷 必 须 得 决定 要 偷 哪些 物品 ， 因 为 背包 的 容纳 能 力 有 限 


























果 可 以 拿 走 任意 数量 的 任意 物品 , 那么 小 偷 只 需要 简单 地 将 每 件 物品 的 价值 除 以 重量 , 就 
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能 求 出 可 用 容纳 能 力 下 价值 最 高 的 物品 ,。 但 为 了 让 场景 更 加 真实 , 这 里 规定 小 偷 不 能 拿 走 半 件 物 
m (如 2.5 台电 视 机 )。 于 是 我 们 有 了 求解 小 偷 问题 的 0/1 变 体 ， 因 为 多 了 一 条 必须 执行 的 规则 : 
小 偷 要 么 拿 走 整 件 物品 ， 要 么 不 拿 。 

首先 ， 我 们 定义 一 个 NamedTuple 类 型 的 类 用 于 存放 物品 ， 具 体 代 码 如 代码 清单 9-1 
所 示 。 


代码 清单 9-1 knapsack.py 


from typing import NamedTuple, List 





class Item(NamedTuple): 
name: str 
weight: int 
value: float 
如 果 想 用 蛮 力 法 求解 ， 我 们 就 要 查看 可 放 入 背包 物品 的 每 种 组 合 。 在 数学 上 这 被 称 为 协 集 ， 
KEG ( 本 示例 中 为 物品 的 集合 ) 的 知 集 可 能 有 2* 种 不 同 的 子 集 ， 其 中 N 是 数据 项 的 数量 。 
此 ， 蛮 力 法 需要 分 析 2* 种 组 合 ， 即 复杂 度 为 0(2")。 如 果 数 据 项 不 多 ， 那么 这 是 可 行 的 ,但 数据 
量 很 多 时 就 难以 维持 了 。 任 何 步 数 为 指数 级 的 解法 都 是 应 该 避免 的 。 
这 里 将 换 用 一 种 名 为 动态 规划 (dynamic programming ) 的 技术 ,其 在 概念 上 类 似 于 第 1 章 中 
的 结果 缓存 ( memoization )。 动 态 规划 法 不 是 用 蛮 力 法 一 次 性 把 问题 全 部 解决 ， 而 是 先 解 决 构成 
大 问题 的 子 问题 并 保存 结果 , 再 利用 这 些 缓存 的 结果 来 解决 更 大 的 问题 。 只 要 把 背包 的 容纳 能 
计算 方案 看 成 离散 的 多 个 步 又， 就 可 以 用 动态 规划 来 解决 背包 问题 。 
例如 , 为 了 解决 3 斤 容 纳 能 力 3 件 物品 的 背包 问题 ,我们 可 以 首先 解决 1 斤 容 纳 能 力 1 件 物 
品 、2 斤 容 纳 能 力 1 件 物品 、3 斤 容纳 能 力 1 件 物品 的 问题 。 然 后 可 以 用 求 得 的 结果 解决 1 斤 容 
纳 能 力 2 件 物品 、2 斤 容 纳 能 力 2 件 物品 、3 斤 容纳 能 力 2 件 物品 的 问题 。 最 后 ， 我 们 可 以 解决 
全 部 3 件 物品 的 问题 。 
整个 求解 过 程 就 是 填 表 操作 , 给 出 每 种 物品 和 容纳 能 力 组 合 的 最 优 解 。 对 于 这 里 的 函数 , 我 
们 先 要 进行 填 表 操作 ， 然 后 根据 表格 得 出 解 "。 具 体 代码 如 代码 清单 9-2 所 示 。 


代码 清单 9-2 ”knapsack.py ( 续 ) 


def knapsack (items: List[Item], max_capacity: int) -> List[Item]: 





























# build up dynamic programming table 








DO 为 了 编写 此 解决 方案 , 我 研究 了 好 几 份 资料 , 其 中 最 权威 的 是 Robert Sedgewick 的 《算法 (第 2 版 ))( 第 
596 页 )。 我 查阅 过 Rosetta Code 网 站 上 求解 0/1 背包 问题 的 几 个 示例 , 特别 是 其 中 的 Python 动态 规划 解 
决 方案 ， 本 函数 在 很 大 程度 上 移 自 那里 ， 而 那 也 是 来 自 本 书 的 Swift hto CAMA Python 到 Swift, EX 
回 到 Python, 
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table: List[List[float]] = [[0.0 for _ in range(max_capacity + 1)] for _ in 
range(len(items) + 1)] 
for i, item in enumerate(items): 
for capacity in range(l, max_capacity + 1): 
previous items value: float = table[i] [capacity] 
if capacity >= item.weight: # item fits in knapsack 


value freeing weight for item: float = table[i] [capacity - item.weight] 





# only take if more valuable than previous item 


table[i + 1] [capacity] = max (value freeing weight for item + item. 





value, previous_items_ value) 
else: # no room for this item 
table[i + 1] [capacity] = previous items value 
# figure out solution from table 
solution: List[Item] = [] 
capacity = max_capacity 
for i in range(len(items), 0, -1): # work backwards 
# was this item used? 
if table[i - 1] [capacity] != table[i] [capacity]: 
solution.append(items[i - 1]) 
# if the item was used, remove its weight 
capacity -= items[i - 1].weight 
return solution 
上 述 函 数 第 一 部 分 的 内 层 循环 将 执行 YxC 次 , 其 中 六 是 物品 数量 ，C 是 背包 的 最 大 容纳 能 
力 。 因 此 , 该 算法 将 执行 ON” O 次 ， 当 物品 数量 较 多 时 这 明显 比 蛮 力 法 进步 很 多 。 例 如 ， 对 于 
代码 清单 9-3 中 的 11 件 物品 ， 蛮 力 法 需要 检查 2" (2048) 种 组 合 。 因 为 这 里 背包 的 最 大 容纳 能 
力 是 75 个 单位 ， 所 以 上 述 动 态 规划 函数 将 执行 825 次 (11 x75 )。 随 着 物品 数量 的 增加 ， 这 种 差 
别 将 会 呈 指 数 级 扩大 。 
下 面 看 一 下 实际 的 求解 结果 ， 如 代码 清单 9-3 所 示 。 


代码 清单 9-3 knapsack.py ( 2 ) 


if name == "_main_": 





items: List[Item] = [Item("television", 50, 500), 
Item("candlesticks", 2, 300), 
Item("stereo", 35, 400), 
Item("laptop", 3, 1000), 
Item("food", 15, 50), 
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tem("clothing", 20, 800), 
tem("jewelry", 1, 4000), 
tem("books", 100, 300), 
tem("printer", 18, 30), 


tem("refrigerator", 200, 700), 





tem("painting", 10, 1000) ] 
print (knapsack (items, 75) ) 

请 查看 输出 到 控制 台 的 结果 ， 最 优 解 将 是 “painting jewelry, clothing, laptop, stereo 和 
candlestick”。 下面 给 出 了 一 些 输出 的 例子 , 列 出 了 给 定 容 纳 能 力 有 限 的 背包 时 小 偷 应 该 窃取 哪些 
物品 才 最 值钱 : 

[Item(name='painting', weight=10, value=1000), Item(name='jewelry', weight=1, value=4000), 

Item(name='clothing', weight=20, value=800), Item(name='laptop', weight=3, 
value=1000), Item(name='stereo', weight=35, value=400), Item(name='candlesticks', 


weight=2, value=300) ] 


为 了 更 好 地 理解 该 函数 的 工作 原理 ， 下 面 我 们 介绍 一 些 它 的 细节 : 


for i, item in enumerate (items): 








for capacity in range(l, max_capacity + 1): 


对 于 每 种 可 能 的 物品 数量 ,我 们 都 将 线性 遍历 所 有 容纳 能 力 , 直到 达到 背包 的 最 大 容纳 能 力 。 
请 注意 ， 这 里 是 “每 种 可 能 的 物品 数量 "， 而 不 是 每 一 件 物品 。 当 i 等 于 2 时 ， 它 不 是 代表 第 2 
件 物品 ， 而 是 代表 在 每 个 已 搜索 的 容纳 能 力 以 内 前 两 件 物品 的 可 能 组 合 。item 是 正 要 被 穷 取 的 
下 一 件 物品 : 


previous items value: float = table[i] [capacity] 


























if capacity >= item.weight: # item fits in knapsack 
previous_items_value 是 正在 探索 的 当前 capacity 以 内 最 后 一 种 物品 组 合 的 价值 。 
对 于 每 种 可 能 的 物品 组 合 ， 我 们 都 要 考虑 是 否 还 有 可 能 加 入 最 “新 ”的 物品 。 
如 果 物 品 的 总 重量 超过 了 当前 背包 的 容纳 能 力 , 我 们 只 需 复制 当前 容纳 能 力 以 内 的 最 后 一 种 
品 组 合 的 价值 : 


else: # no room for this item 












































table[i + 1] [capacity] = previous_items_ value 


否则 ,我 们 就 要 考虑 在 当前 容纳 能 力 以 内 , 加 入 “新 ”物品 能 和 否 产 生 比 最 后 一 种 物品 组 合 
更 高 的 价值 。 只 要 将 该 物品 的 价值 加 上 表 中 已 算出 的 价值 即 可 得 知 ， 表 中 已 算出 的 价值 是 指 
从 当前 容纳 能 力 中 减 去 该 物品 重量 后 的 容纳 能 力 对 应 的 最 近 一 次 物品 组 合 的 价值 。 如 果 总 价 
值 高 于 当前 容纳 能 力 下 的 最 后 一 种 物品 组 合 的 价值 ， 就 将 其 插入 表 ， 和 否则 ， 就 插入 最 后 一 种 
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组 合 的 价值 : 


value freeing weight for item: float = table[i] [capacity - item.weight] 





# only take if more valuable than previous item 


table[i + 1] [capacity] = max(value_ freeing weight for item + item.value, previous_ 





items_value) 


至 此 ， 建 表 的 工作 就 完成 了 。 但 是, 要 想 真 正 得 到 结果 中 的 物品 , 需要 从 最 高 容纳 能 力 值 及 
最 终 求 得 的 物品 组 合 开 始 往 回 找 : 


for i in range(len(items), 0, -1): # work backwards 








# was this item used? 
if table[i - 1] [capacity] != table[i] [capacity]: 
我 们 从 最 终 位 置 开始 ， 自 右 到 左 遍 历 缓存 表 ， 检 查 插入 表 的 总 价值 是 否 有 变化 。 如 果 有 ， 就 
意味 着 在 计算 某 组 合 时 加 入 了 新 的 物品 , 因为 该 组 合 比 前 一 组 合 价值 高 。 于 是 我 们 把 该 物品 加 入 
解 。 同 时 ， 要 从 总 的 容纳 能 力 中 减 去 该 物品 的 重量 ， 可 以 想象 为 在 表 中 向 上 移动 : 


solution.append(items[i - 1] 















































# if the item was used, remove its weight 

capacity -= items[i - 1].weight 

注意 ”或许 大 家 已 经 看 到 了 ， 在 构建 表 和 查找 解 的 过 程 中 ， 有 些 迭 代 器 的 操作 次 数 多 了 1K, Ž 
的 大 小 也 多 了 1 格 。 这 是 为 了 便于 编程 。 请 考虑 一 下 背包 问题 自 底 向 上 的 构建 过 程 。 一 开始 我 们 
需要 处 理 容纳 能 力 为 0 的 背包 。 如 果 从 表 的 底部 开始 向 上 工作 ， 那 么 我 们 需要 额外 的 行 和 列 的 原 
因 就 很 好 理解 了 。 


还 有 困惑 吗 ? K 9-1 就 是 由 knapsack () 函数 构建 的 表 。 之 前 的 问题 需要 相当 大 的 一 张 表 ， 
所 以 不 妨 就 看 一 张 3 厂 容纳 能 力 的 背包 和 3 件 物品 构成 的 表 : KEJT) FER (2 Jr) 和 书 
CLIT Jo 假设 这 些 物品 的 价值 分 别 为 5 美元 、10 美元 和 15 美元 。 


表 9-1 3 件 物 品 的 背包 问题 示例 






























































OF 1F 2 斤 3 斤 
KEE (1 ry 5 美元 ) 0 5 5 5 
手电 简 (2 Fr. 10 美元 ) 0 5 10 15 
P (1 Ary 15 美元 ) 0 15 20 25 

















从 左 往 右 看 这 张 表 , BORAT LA BE TEAS TE TTT, LEE PAKS, 要 装 的 物品 数量 在 
增加 。 第 一 行 , 只 尝试 装 和 火柴。 第 二 行 , 装 入 背包 所 能 容纳 的 价值 最 高 的 火柴 和 手电 简 的 组 合 。 
第 三 行 ， 装 人 价值 最 高 的 3 种 物品 的 组 合 。 
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请 试 着 自行 填写 一 下 上 述 的 空白 表格 吧 , 采用 knapsack () 函数 中 的 算法 和 以 上 3 种 物品 ， 
就 当 这 是 帮助 你 理解 的 练习 吧 。 然后 用 函数 尾部 的 算法 从 表 中 取 回 正确 的 物品 组 合 。 这 张 表 对 应 
的 就 是 函数 中 的 table 变量 。 








9.2 ”旅行 商 问题 


旅行 商 问 题 (traveling salesman problem ) 是 最 经 典 和 最 受 关注 的 计算 问题 之 一 。 推 销 商 必须 
对 地 图 上 的 所 有 城市 只 访问 一 次 , 行程 结束 时 得 返回 起 点 城市 。 每 个 城市 都 与 其 他 所 有 城市 直接 
相连 ， 推 销 商 访问 城市 的 顺序 可 以 任意 。 请 问 推 销 商 的 行程 的 最 短途 径 是 什么 ? 

旅行 商 问题 可 以 被 认为 是 一 个 图 问题 (参见 第 4 章 )， 城 市 就 是 顶点 ， 城 市 之 间 的 连接 就 是 
边 。 正 如 第 4 章 所 述 ， 可 能 大 家 的 第 一 直觉 就 是 要 查找 最 小 生成 树 。 不 幸 的 是 ,， 旅 行商 问题 的 解 
决 方案 并 没有 这 人 么 简单 。 最 小 生成 树 是 连通 所 有 城市 的 最 短路 径 , 但 它 没 有 提供 只 访问 一 次 所 有 
城市 的 最 短路 径 。 
虽然 看 似 简单 ， 但 没有 算法 能 够 快速 求解 城市 数量 任意 的 旅行 商 问 题 。“ 快 速 ” 是 什么 意思 
WE? 它 表 示 旅 行商 问题 是 所 谓 的 NP 困难 问题 (NP hard problem )。NP 困难 问题 ， 即 非 确 定性 多 
项 式 时 间 复 杂 性 难题 (non-deterministic polynomial hard problem )， 是 指 求解 此 类 问题 不 存在 
多 项 式 时 间 内 可 完成 的 算法 (花费 的 时 间 是 输入 数据 量 的 多 项 式 函 数 )。 随 着 推销 商 要 访问 的 
城市 数量 不 断 增加 ， 求解 问题 的 难度 将 增长 得 异常 迅速 。 求 解 20 个 城市 要 比 求解 10 个 城市 
困难 得 多 。 在 合理 的 时 间 内 , (在 现 有 的 最 强 知 识 条 件 下 ) 不 可 能 完全 ( 最 优 ) 解 出 数 百 万 计 
城市 的 旅行 商 问题 。 
















































































































































































注意 旅行 商 问题 的 朴素 解法 (naive approach) 的 复杂 度 为 O(n!)。 原 因 将 在 9.2.2 节 讨 论 。 不 过 在 
阅读 9.2.2 节 之 前 ， 建 议 先 看 一 下 9.2.1 节 ， 因 为 朴素 解法 的 实现 能 让 其 复杂 度 一 目 了 然 。 





9.2.1 朴素 解法 


旅行 商 问 题 的 朴素 解法 就 是 尝试 所 有 可 能 的 城市 组 合 。 尝试 朴素 解法 能 将 该 问题 的 难度 呈现 
出 来 ， 说 明 朴素 解 法 不 适合 大 规模 的 亦 力 求解 。 

















1. 示例 数据 


在 本 旅行 商 问题 中 ， 推 销 商 想 要 访问 佛蒙特 州 〈《Vermont ) 的 5 个 主要 城市 。 这 里 不 指定 起 
点 (也 就 是 终点 ) 城市 。 图 9-2 显示 了 5 个 城市 及 其 相互 之 间 的 行驶 距离 。 请 注意 ， 每 一 对 城市 
之 间 的 路 线 上 都 标 上 了 距离 。 

或 许 大 家 之 前 已 经 见 过 表格 形式 的 行驶 距离 数据 。 在 行驶 距离 表 中 , 我 们 可 以 轻松 找 出 任意 
两 个 城市 之 间 的 距离 。 表 9-2 列 出 了 本 问题 中 5 个 城市 间 的 行驶 距离 。 
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White River 
Junction 
Bennington 
图 9-2 ”佛蒙特 州 的 5 个 城市 及 其 相互 之 问 的 行驶 距离 
表 9-2 ”佛蒙特 州 各 城市 之 间 的 行驶 距离 
Rutland Burlington | White River Junction | Bennington | Brattleboro 
Rutland 0 67 46 55 75 
Burlington 67 0 91 122 153 
White River Junction 46 91 0 98 65 
Bennington 55 122 98 0 40 
Brattleboro 75 153 65 40 0 


这 里 需要 为 各 个 城市 及 其 相互 之 间 的 昌 



































E 离 编写 数据 结构 。 为 了 让 城市 之 间 的 距离 便于 查找 ， 
我 们 将 采用 字典 的 字典 ， 外 部 键 代 表 一 对 城市 中 的 第 1 个 ， 内 部 键 代表 第 2 个 。 类 型 将 是 
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Dict[str, Dict[str, int]], 使 其 能 执行 vt distances["Rutland"] ["Burlington"] 
之 类 的 检索 并 应 返回 67。 具 体 代码 如 代码 清单 9-4 所 示 。 


代码 清单 9-4 tsp.py 


from typing import Dict, List, 


Iterable, Tuple 


from itertools import permutations 


vt_distances: Dict[str, Dict[str, int]] = { 


"Rutland": 

{"Burlington": 67, 
"White River Junction" 
"Bennington": 55, 
"Brattleboro": 75}, 

"Burlington": 

{"Rutland": 67, 
"White River Junction 
"Bennington": 122, 
"Brattleboro": 153}, 

"White River Junction": 

{"Rutland": 46, 
"Burlington": 91, 
"Bennington": 98, 
"Brattleboro": 65}, 

"Bennington": 

{"Rutland": 55, 

"Burlington": 122, 


: 46, 


me OL, 


"White River Junction": 98, 


"Brattleboro": 40}, 
"Brattleboro": 

{"Rutland": 75, 

"Burlington": 153, 


"White River Junction": 65, 


"Bennington": 40} 


} 


2. 查找 所 有 排列 


旅行 商 问题 的 朴素 解法 需要 生成 所 有 城市 每 一 种 可 能 的 排列 ( permutation )。 排 列 生成 算法 
有 许多 种 ， 而 且 都 很 简单 ， 读 考 自己 一 定 能 想 出 一 种 来 。 


9.2 ”旅行 商 问题 189 


有 一 种 常见 的 排列 生成 算法 是 回溯 (backtrack )。 我 们 第 一 次 介绍 回溯 是 在 第 3 章 ， 其 背景 
是 求解 约束 满足 问题 。 在 求解 约束 满足 问题 过 程 中 , 当 发 现 不 满足 问题 约束 的 部 分 解 后 会 用 到 回 
溯 。 这 时 将 恢复 到 较 早 的 状态 ， 并 沿 着 不 同 于 出 错 部 分 解 的 路 径 继续 搜索 。 

为 了 查找 列表 内 数据 项 的 所 有 排列 方案 ( 例如 本 例 中 的 城市 )， 我 们 也 可 以 采用 回溯 。 在 交 
换 列 表 元 素 进 入 后 续 排 列 方案 的 路 径 之 后 , 我 们 可 以 回溯 到 交换 之 前 的 状态 ,以 便 再 做 其 他 的 交 
换 以 沿 着 别 的 路 径 前 进 。 

幸运 的 是 ， 轮 子 没 有 必要 重新 发 明 ， 排 列 生 成 算法 不 需要 重 写 ， 因 为 Python 标准 库 在 其 
itertools 模块 中 包含 了 permutations () 函数 。 在 代码 清单 9-5 中 ， 我 们 生成 了 旅行 商 
要 访问 的 佛蒙特 州 城市 的 全 部 排列 。 因 为 有 5 个 城市 ， 所 以 就 有 $! (5 的 阶乘 ， 即 120 ) 个 
排列 值 。 








代码 清单 9-5 tsp.py ( 续 ) 


vt_cities: Iterable[str] = vt_distances.keys () 


city permutations: Iterable[Tuple[str, ...]] = permutations (vt_cities) 
< 
3. BARRE 


现在 我 们 可 以 为 城市 列表 生成 全 部 排列 了 , 但 这 与 旅行 商 问题 的 路 径 不 完全 相同 。 还 记得 吧 ， 
在 旅行 商 问题 中 , 推销 商 最 终 必 须 回 到 起 点 城市 。 我 们 用 列表 推导 式 就 能 轻松 地 将 排列 中 的 第 一 
个 城市 添加 到 排列 的 末尾 。 具 体 代 码 如 代码 清单 9-6 所 示 。 


代码 清单 9-6 tsp.py ( 续 ) 


tsp paths: List[Tuple[str, ...]] = [c + (c[0],) for c in city permutations] 


现在 我 们 可 以 尝试 对 已 经 排列 出 的 路 径 进行 测试 了 。 亦 力 搜索 法 费 尽 力气 地 查看 路 径 列 表 中 
的 每 条 路 径 ， 并 用 两 个 城市 间距 离 的 查找 表 (vt_distances ) 计算 出 每 条 路 径 的 总 距离 。 然 
后 打印 出 最 短路 径 及 其 总 距离 。 具 体 代 码 如 代码 清单 9-7 所 示 。 


代码 清单 9-7 tsp.py ( 续 ) 


if _name == "_main_" 
best_path: Tuple[str, ...] 
min_distance: int = 99999999999 # arbitrarily high number 
for path in tsp paths: 
distance: int = 0 
last: str = path[0] 
for next in path[1:]: 


distance += vt_distances[last] [next] 
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last = next 
if distance < min_distance: 
min_distance = distance 
best_path = path 
print (f£"The shortest path is {best_path} in {min_distance} miles.") 


现在 我 们 终于 可 以 对 佛蒙特 州 的 城市 进行 蛮 力 探索 了 ， 找 出 到 达 全 部 5 个 城市 的 最 短途 径 。 
合 出 应 该 类 似 于 如 下 所 示 ， 最 住 路 径 呈 现在 图 9-3 上 。 


The shortest path is ('Rutland', 'Burlington', 'White River Junction', 'Brattleboro', 














"Bennington', 'Rutland') in 318 miles. 
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Junction 


Brattleboro 





Bennington 











网 














9-3 ”推销 商 访问 佛蒙特 州 全 部 5 个 城市 的 最 短路 径 示意 
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9.2.2 进 阶 





对 旅行 商 问题 的 解答 都 不 轻松 。 这 里 的 朴素 解法 很 快 就 会 变 得 不 再 可 行 。 生 成 的 排列 数量 是 
n 的 阶乘 Cal), HP n 是 问题 中 的 城市 数量 。 只 要 我 们 再 增加 1 个 城市 (6 个 而 不 是 5 个)， 要 
计算 的 路 径 数量 就 将 增加 6 倍 。 敬 在 此 之 后 再 增加 1 个 城市 ,问题 难度 就 会 再 增加 7 倍 。 这 不 是 
一 种 可 扩展 的 做 法 ! 

在 现实 世界 中 ， 很 少 会 用 到 旅行 商 问题 的 朴素 解法 。 对 于 包含 大 量 城 市 的 旅行 商 问题 实例 ， 
大 多 数 算法 都 是 求 出 近似 解 。 这 些 算法 尝试 求 得 问题 的 接近 最 优 (near-optimal ) 解 。 接 近 最 优 解 
可 能 位 于 围绕 完美 解 的 较 小 可 知 范围 内 。 例 如 ， 它 们 降低 的 效率 可 能 不 超过 5%。 

本 书 已 有 两 种 技术 可 用 于 尝试 求解 大 数据 集 的 旅行 商 问 题 。 本章 之 前 用 于 背包 问题 的 动态 规 
划 就 是 其 中 的 一 种 技术 。 另 一 种 技术 则 是 第 5 章 介绍 的 遗传 算法 。 许 多 期 刊 文章 已 经 发 表 了 对 于 
求解 包含 大 量 城市 的 旅行 商 问题 ， 遗 传 算法 可 归于 求 出 接近 最 优 解 的 解法 。 
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在 内 置 通讯 录 的 智能 手机 出 现 之 前 ， 电 话机 数字 键盘 的 每 个 按键 上 都 带 有 字母 。 这 些 字 
母 是 为 了 提供 简单 的 助 记 符 ， 以 便 记 住 电话 号 码 。 在 美国 ， 通 常数 字 键 1 上 不 带 字 母 ，2 上 
Æ ABC, 3 上 是 DEF，4 上 是 GHI，5 上 是 下 L，6 上 是 MNO，7 上 是 PQRS，8 上 是 TUV, 
9 上 是 WXYZ，0 上 不 带 字 母 。 例 如 ，1-800-MY-APPLE 对 应 于 电话 号 码 1-800-69-27753。 在 
广告 中 偶尔 还 会 出 现 这 些 助 记 符 ， 因 此 键盘 上 的 数字 已 经 带 入 了 现代 智能 手机 应 用 程序 中 ， 
如 图 9-4 所 示 。 

如 何 为 某 个 电话 号 码 想 出 一 个 新 的 助 记 符 呢 ? 在 20 世纪 90 年 代 , 有 一 些 流行 的 共享 软件 可 
以 帮助 完成 这 项 工作 。 这 些 软 件 会 生成 电话 号 码 各 字母 的 每 种 排列 , 并 查 字典 找 出 排列 中 包含 的 
单词 。 然 后 会 向 用 户 显 示 带 有 最 完整 单词 的 排列 。 这 里 将 完成 问题 的 上 半 部 分 。 查 字典 的 部 分 将 
会 留 作 习题 。 

在 上 述 最 后 一 个 问题 中 ， 在 研究 排列 的 生成 方式 时 用 到 了 permutations () 函数 ， 以 
便 生成 旅行 商 问题 的 可 能 路 径 。 但 正如 前 所 述 ， 生 成 排列 的 方法 有 很 多 。 特 别 是 对 本 问题 而 
A, 我 们 不 会 交换 现 有 排列 中 两 个 值 的 位 置 来 生成 新 的 排列 , 而 是 会 从 头 开 始 生成 每 个 排列 。 
与 电话 号 码 中 每 个 数字 可 能 匹配 的 字母 都 会 被 检索 ， 并 随 着 后 续 数字 的 读 入 而 不 断 加 入 更 多 
的 可 能 匹配 值 。 此 操作 仍然 是 一 种 笛 卡 儿 积 ，Python 标准 库 的 itertools 模块 已 经 包含 了 
这 个 功能 。 


首先 ， 我 们 定义 一 下 数字 和 可 能 匹配 字母 的 映射 关系 ， 具 体 代码 如 代码 清单 9-8 所 示 。 
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e000 T-Mobile Wi-Fi ® 11:35 PM 76 =: 





avorites Recents Contacts Keypad Voicemai 


图 9-4 iOS 中 的 电话 应 用 程序 保留 了 按键 上 的 字母 ， 正 如 老式 的 电话 那样 


代码 清单 9-8 tsp.py ( 续 ) 


from typing import Dict, Tuple, Iterable, List 








from itertools import product 


phone mapping: Dict[str, Tuple[str, ...]] = {"1": ("1",), 
"2m (Nal. “bt; Ver), 
ngn: (Tat; Ter; ME"), 
mare ("gre "hny Wim), 
TE (Tm MRM TTN 
"6": ("m", "n", "o"), 
egz (py Tarp VE", "B") > 
POMS (TET; Ma. Bw), 

moma (mgm Meet, My. het) y 


wo": ("0",) } 


下 一 个 函数 将 对 给 定 电话 号 码 的 每 个 数字 生成 所 有 可 能 的 组 合 , 形成 可 能 的 助 记 符 列表 。 先 
为 电话 号 码 中 的 每 个 数字 创建 可 能 的 字母 元 组 列表 , 然后 通过 itertools 模块 中 的 笛 卡 儿 积 函 
数 product () 来 实现 。 请 注意 ， 这 里 用 到 了 解 包 运算 符 *, 将 letter tuples 中 的 元 组 用 作 
product () 的 参数 。 具 体 代码 如 代码 清单 9-9 所 示 。 
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代码 清单 9-9 tsp.py ( 续 ) 


def possible mnemonics (phone number: str) -> Iterable[Tuple[str, ...]]: 
letter tuples: List[Tuple[str, ...]] = [] 
for digit in phone number: 
letter tuples.append(phone mapping.get(digit, (digit,))) 


return product (*letter tuples) 


现在 可 以 为 某 个 电话 号 码 找 出 所 有 可 能 的 助 记 符 了 ， 具 体 代码 如 代码 清单 9-10 所 示 。 


代码 清单 9-10 tsp.py (4) 


if name == "main 
phone number: str = input ("Enter a phone number:") 
print ("Here are the potential mnemonics:") 
for mnemonic in possible mnemonics (phone number): 


print ("".join (mnemonic) ) 


结果 就 是 电话 号 码 1440787 也 可 以 写成 1GHOSTS。 这 好 记 多 了 。 
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背包 问题 采用 的 动态 规划 技术 适应 范围 比较 广泛 ， 能 将 貌似 很 棘手 的 问题 分 解 成 较 小 
的 问题 ， 再 把 多 个 较 小 问题 的 部 分 解 组 合 在 一 起 形成 整体 和解。 背包 问题 本 身 与 其 他 一 些 优 
化 问题 有 关联 ， 这 些 问 题 必须 将 有 限 的 资源 ( 背包 的 容纳 能 力 ) 分 配给 有 限 但 会 耗 尽 该 次 
源 的 可 选 目标 集 ( 要 窃取 的 物品 )。 不 妨 想象 一 下 ， 有 一 所 大 学 需要 分 配 运动 经 费 预算 。 学 
校 没 有 足够 的 资金 提供 给 每 个 运动 队 ， 因 此 希望 每 个 运动 队 会 引入 一 些 校友 捐款 。 于 是 就 
可 以 求解 一 个 类 似 背包 的 问题 ， 以 便 获 得 最 优 的 预算 分 配方 案 。 这 类 问题 在 现实 世界 中 十 
分 常见 。 

旅行 商 问题 是 UPS 和 FedEx 等 运输 和 配送 公司 的 日 常事 务 。 包 于 快 递 公司 希望 司机 能 以 最 
短 的 路 线 行驶 。 这 不 仅 让 司机 工作 起 来 更 加 愉悦 ， 而 且 还 节省 了 燃料 和 保养 成 本 。 人 们 都 会 出 门 
旅行 ,或 为 工作 或 为 游玩 ,在 访问 多 个 目的 地 时 找到 最 优 路 线 可 以 节省 很 多 资源 。 但 旅行 商 问题 
不 仅仅 是 行进 路 径 问题 , 几乎 所 有 需要 单 次 访问 节点 的 寻 路 场景 都 会 碰 到 该 问题 。 假设 需 要 为 某 
社区 连通 电路 , 尽管 第 4 章 的 最 小 生成 树 可 以 最 小 化 所 需 电线 的 量 , 但 如 果 每 栋 房子 都 必须 只 与 
其 他 房子 连接 一 次 , 且 需 组 成 一 个 大 的 回路 以 便 能 回 到 起 点 位 置 ， 则 最 小 生成 树 算法 无 法 得 出 电 
线 的 最 优 量 ， 而 用 旅行 商 问题 就 能 解决 。 

对 于 各 种 蛮 力 算法 的 测试 , 排列 生成 技术 ( 类 似 于 旅行 商 问 题 和 电话 号 码 助 记 符 问题 的 朴素 
解法 ) 非常 有 用 。 例 如 ， 要 破解 某 个 短 密码 ， 就 可 以 对 能 够 出 现在 密码 中 的 字符 生成 所 有 可 能 的 
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排列 。 对 于 大 规模 的 排列 生成 任务 而 言 ， 从 业 人 员 会 明智 地 选用 类 似 堆 (heap) 算法 "之 类 的 高 





效 排列 生成 算法 。 
9.5 习题 
1. 用 第 4 章 的 图 框架 为 旅行 商 问题 的 朴素 解法 重新 编写 代码 。 


2. 通过 实现 第 5 章 介 绍 的 遗传 算法 来 求解 旅行 商 问 题 。 请 从 本 章 的 佛蒙特 州 5 个 城市 的 简 














单数 据 集 开 始 。 你 能 让 遗传 算法 在 短 时 间 内 达到 最 优 解 吗 ?” 然后 





























FAAA EZ HIIRT 


遗传 算法 还 能 撑 得 住 吗 ?你 可 以 在 互联 网 上 搜 一 下 ， 找 到 专 为 旅行 商 问题 制作 的 大 型 数 








据 集 。 请 为 检验 解法 的 效率 开发 一 个 测试 框架 。 





3. 在 电话 号 码 助 记 符 程序 中 采用 字典 ,使 其 仅 返回 包 含 字典 内 单词 的 字母 排列 。 





D 参见 Robert Sedgewick 的 Permutation Generation Methods (普林斯顿 大 学 )。 
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本 附录 定义 了 书 中 部 分 关键 术语 。 

激活 函数 (activation function) 在 人 工 神 经 网 络 中 转换 神经 元 输出 的 函数 ， 通 常 是 为 了 提 
供 非 线 性 变换 处 理 能 力 或 保证 将 输出 值 限制 在 一 定 范 围 内 (第 7 章 )。 

无 环 图 (acyclic) 没有 环 路 的 图 (第 4 章 )。 

可 接受 的 启发 (admissible heuristic) A* 搜 索 算法 的 启发 式 算 法 ， 绝 不 高 估 抵 达 目 标的 成 
AS (第 2 章 )。 

人 工 神经 网 络 (artificial neural network) 用 计算 工具 模拟 生物 神经 网 络 ， 以 解决 那些 难以 
简化 为 传统 算法 适用 形式 的 难题 。 请 注意 人 工 神 经 网 络 的 操作 通常 与 生物 学 意义 上 的 神经 网 络 
存在 明显 的 差异 (第 7 章 )。 

自动 结果 缓存 (auto-memoization) 在 语言 层级 实现 的 结果 缓存 ， 其 中 保存 着 不 会 有 副 作 
用 的 函数 调用 结果 ， 以 供 后 续 的 相同 调用 时 检索 ( 第 1 章 )。 

反 向 传播 (backpropagation) 一 种 用 来 训练 神经 网 络 得 出 权重 的 技术 ， 基 于 正确 输出 已 知 
的 一 组 输入 来 完成 。 这 里 用 偏 导 数 计算 权重 对 实际 结果 与 预期 结果 之 误差 所 承担 的 “责任 "。 这 
HE delta 将 用 于 修正 后 续 训 练 中 的 权重 (第 7 章 )。 

回溯 (backtracking) 在 搜索 问题 中 ， 碰 到 障碍 后 就 回 到 之 前 的 决策 点 〈 转 向 与 前 一 次 不 
同 的 方向 ) (第 3 章 )。 

位 串 〈bit string) 一 种 数据 结构 ， 存 储 的 是 1 和 0 组 成 的 序列 ， 每 个 序列 值 用 1 位 内 存 表 
示 。 有 时 也 被 称 作 位 向 量 (bit vector ) 或 位 数组 (bit array ) (第 1 章 )。 

形 心 (centroid) 聚 类 的 中 心 点 。 通常 , 该 点 每 个 维度 的 值 都 是 其 他 所 有 点 在 此 维度 的 均值 
第 6 章 )。 


染色 体 (chromosome) 在 遗传 算法 中 ， 种 群 中 的 个 体 被 称 为 染色 体 (第 5 章 )。 
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RAR (cluster) 参见 聚 类 (第 6 章 )。 

RA (clustering) 一 种 无 监督 学 习 技 术 ， 将 一 个 数据 集 划 分 为 由 相关 点 构成 的 多 个 小 组 ， 
这 些小 组 被 称 作 聚 类 徐 〈 第 6 章 )。 

密码 子 (codon) 组 成 氨基 酸 的 3 种 核 苷 酸 的 组 合 ( 第 2 章 )。 

压缩 (compression) 对 数据 进行 编码 ( 改变 格式 ) 以 减少 占用 空间 (第 1 章 )。 

连通 (connected) 图 的 一 种 属性 ， 表 明 任 一 顶点 都 存在 到 其 他 任何 顶点 的 路 径 (第 4 章 )。 

2R (constraint) 为 解决 约束 满足 问题 而 必须 满足 的 条 件 (第 3 章 )。 

交换 (crossover) 在 遗传 算法 中 ,将 种 群 中 的 个 体 组 合 在 一 起 创造 出 后 代 ， 这 些 后 代 是 其 
父母 的 混合 体 ， 并 将 组 成 下 一 代 种 群 (第 5 章 )。 
CSV 一 种 文本 交换 格式 ,每 行 数据 中 的 值 以 逗号 分 隔 , 行 与 行 之 间 通 常 由 换行 符 分 隔 。CSV 
的 意思 是 过 号 分 隔 的 值 (comma-separated value )。CSYV 是 从 电子 表格 和 数据 库 中 导出 的 数据 的 常 
见 格 式 (第 7 章 )。 


环 (cycle) 图 的 路 径 ， 在 没有 回溯 的 情况 下 同一 个 顶点 会 被 访问 两 次 (第 4 章 )。 

解压 缩 (decompression) 压缩 过 程 的 逆 操 作 ， 将 数据 恢复 为 原 格式 (第 1 章 )。 

深度 学 习 (deep learning) 一 句 流 行 语 ， 任 何 一 种 用 高 级 机 器 学 习 算 法 分 析 大 数据 的 
技术 都 可 被 认为 是 深度 学 习 。 最 常见 的 深度 学 习 是 用 多 层 人 工 神经 网 络 求解 大 数据 集 应 用 问题 
(第 7 章 )。 

delta ”表示 神经 网 络 中 权重 的 预期 值 与 实际 值 之 间 的 差距 的 一 个 值 ,预期 值 由 数据 的 训练 和 
反 向 传播 进行 确定 (第 7 章 )。 

有 向 图 (digraph) 参见 有 向 图 (directed graph ) (第 4 章 )。 

有 向 图 (directed graph) 也 称 作 digraph， 有 向 图 的 边 只 能 朝 一 个 方向 遍历 (第 4 章 )。 

值 域 (domain) 约束 满足 问题 中 交 量 的 可 能 取 值 范围 (第 3 章 )。 


动态 规划 (dynamic programming) 动态 规划 不 采用 齐 力 法 直接 解决 大 型 问题 ， 而 是 把 大 
型 问题 分 解 为 更 可 控 的 小 型 子 问题 (第 9 EE) 


边 (edge) 图 中 两 个 顶点 (节点 ) 之 间 的 连接 (第 4 章 )。 

异 或 (exclusive or) 参见 XOR (第 1 章 )。 

前 馈 (feed-forward) 一 种 神经 网 络 ， 信 和 号 在 其 中 朝 一 个 方向 传播 (第 7 章 )。 

适应 度 函 数 (fitness function) 一 种 评分 函数 ， 对 问题 可 能 的 解 进行 效果 评价 (第 5 章 )。 

代 〈generation) 遗传 算法 中 的 一 轮 计 算 ， 也 用 于 表示 一 轮 计算 过 程 中 受 激活 个 体 组 成 的 种 
群 (第 5 章 )。 

遗传 编程 (genetic programming) 运用 选择 、 交 换 和 变异 操作 符 进 行 自 我 修改 的 程序 ， 以 
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便 求 解 解法 不 明显 的 编程 问题 (第 5 章 )。 

梯度 下 降 (gradient descent) 用 反 向 传播 时 计算 出 来 的 delta 和 学 习 率 ， 修 改 人 工 神经 网 络 
权重 的 方法 (第 7 章 )。 

图 (graph) 一 种 抽象 的 数学 结构 ,通过 将 问题 划分 为 一 组 相互 连通 的 节点 来 对 现实 世界 的 

































































贪 梦 算法 (greedy algorithm) 一 种 在 任 一 决策 点 都 选择 最 优 直 接 选 项 的 算法 ， 以 期 能 导出 
全 局 的 最 优 解 (第 4 章 )。 

启发 式 算法 (heuristic〉 一 种 关于 问题 求解 路 径 的 直觉 ， 认 为 该 路 径 指向 正确 的 方向 (第 2 章 )。 

隐藏 层 (hidden layer) 在 前 馈 人 工 神 经 网 络 中 , 所 有 位 于 输入 层 和 输出 层 之 间 的 层 (第 7 章 )。 

无 限 循 环 (infinite loop) 不 会 终止 的 循环 (第 1 音 )。 

无 限 递 归 Cinfinite recursion) 不 会 终止 的 递归 调用 ， 而 是 持续 发 起 新 的 递归 调用 。 这 类 似 
于 无 限 循 环 。 通 常 是 因为 缺少 基线 条 件 引 起 的 (第 1 章 )。 

输入 层 (input layer) 前 馈 人 工 神经 网 络 的 第 一 层 ,接收 来 自 某 种 外 部 实体 的 输入 (第 7 章 )。 

学 习 率 (learning rate) 通常 是 一 个 常数 ， 用 于 根据 计算 得 出 的 delta 调整 人 工 神经 网 络 权 
重 的 修改 率 ( 第 7 章 )。 

结果 缓存 (memoization ) 一 种 将 计算 任务 的 结果 保存 起 来 的 技术 , 以 供 后 续 从 内 存 中 读 取 ， 
从 而 节省 为 重新 生成 相同 结果 而 额外 耗费 的 计算 时 间 (第 1 章 )。 







































































最 小 生成 树 (minimum spanning tree) 连接 所 有 顶点 的 生成 树 ， 使 得 所 有 边 的 总 权重 最 低 
(第 4 章 )。 


变异 (mutate) 在 遗传 算法 中 ， 当 个 体 被 放 入 下 一 代 种 群 之 前 随机 改变 该 个 体 的 某 些 属 
性 (第 5 章 )。 

自然 选择 《natural selection) 生物 优胜 劣 汰 的 进化 过 程 。 给 定 有 限 的 环境 资源 ， 最 善于 利 
用 这 些 资源 的 生物 将 会 存活 并 繁衍 。 经 过 几 代 之 后 ,就 会 让 有 利 的 特征 在 种 群 中 扩散 ， 由 此 环境 
约束 就 做 出 了 自然 选择 (第 5 FF )。 

神经 网 络 (neural network) 由 多 个 神经 元 构成 的 网 络 ， 神 经 元 相互 协同 进行 信息 处 理 。 这 
些 神 经 元 通常 视 作 分 层 组 织 〈 第 7 音 )。 

神经 元 (neuron) 神经 细胞 个 体 ， 正 如 人 类 大 脑 中 的 神经 细胞 (第 7 章 )。 

归 一 化 (normalization) 让 不 同类 型 的 数据 具有 可 比 性 的 过 程 (第 6 章 )。 

NP 困难 问题 (NP-hard problem) 一 类 没有 已 知 的 多 项 式 时 间 算 法 能 够 求解 的 问题 (第 9 
章 )。 

H (nucleotide) DNA 的 4 种 碱 基 CARES (A) FMRME (C) SII (G) 和 胸腺 
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EE (T) 之 一 的 实例 (第 2 章 )。 

输出 层 (output layer) 前 馈 人 工 神 经 网 络 中 的 最 后 一 层 ， 用 于 对 给 定 输 入 和 问题 确定 神经 
网 络 的 求解 结果 (第 7 章 )。 

路 径 (path) 连接 图 中 两 个 顶点 的 边 的 集合 (第 4 章 )。 

EB (ply) 在 双人 游戏 中 的 一 个 回合 〈 通 常 可 被 视 为 一 步 ) (第 8 章 )。 

种 群 (population) 在 遗传 算法 中 , 种 群 是 多 个 个 体 的 集合 ( 每 个 种 群 都 代表 问题 可 能 的 解 )， 
这 些 个 体 相互 竞争 以 期 求解 问题 (第 5 章 )。 

优先 队列 (priority queue) 基于 “优先 级 ”顺序 弹出 数据 项 的 数据 结构 。 例 如 ， 为 了 首先 
响应 最 高 优先 级 的 电话 ， 优 先 队列 可 以 与 紧急 电话 数据 集 一 起 使 用 (第 2 章 )。 

BAF (queue) 一 种 抽象 数据 结构 ， 保 证 先进 先 出 (First-In-First-Out，FIFO ) 的 顺序 。 队 
列 的 实现 代码 至 少 应 提供 压 入 操作 和 弹出 操作 ， 分 别 用 于 添加 和 移 除 元 素 ( 第 2 章 )。 

VARA (recursive function) 调用 自己 的 函数 (第 1 章 )。 

选择 〈selection) 在 遗传 算法 的 一 代 运算 中 ， 为 了 繁殖 而 选择 个 体 的 过 程 ， 以 创造 下 一 代 
中 的 个 体 ( 第 5 章 )。 

sigmoid HX (sigmoid function) 流行 的 激活 函数 之 一 ， 用 于 人 工 神经 网 络 。 名 为 sigmoid 
的 函数 始终 会 返回 介 于 0 到 1 之 间 的 值 。 它 还 有 助 于 确保 神经 网 络 能 把 超出 线性 变换 的 结果 表示 
出 来 (第 7 章 )。 

SIMD 指令 (SIMD instruction) 为 向 量 计 算 做 过 优化 的 微 处 理 器 指令 ， 有 时 也 称 为 向 量 指 
令 。SIMD 代表 单 指令 多 数据 (single instruction, multiple data ) (第 7 章 )。 

生成 树 Cspanning tree) 连接 图 中 每 个 项 点 的 树 (第 4 章 )。 

$k Cstack) ”一 种 抽象 数据 结构 ， 保 证 后 进 先 出 的 顺序 (Last-In-First-Out, LIFO )。 栈 的 实 
现代 码 至 少 应 提供 压 人 操作 和 弹出 操作 ， 分 别 用 于 添加 和 移 除 元 素 〈 第 2 章 )。 

监督 学 习 (supervised learning) 机 需 学 习 技 术 中 的 算法 或 多 或 少 需要 外 部 资源 的 指导 才能 
得 出 正确 解 ( 第 7 章 )。 

突 触 (synapse) 神经 元 之 间 的 间 际 ， 神 经 递 质 充 斥 其 中 用 以 传导 电流 。 用 非 专业 的 话说 ， 
这 些 就 是 神经 元 之 间 的 连接 (第 7 章 )。 

训练 (training) 人 工 神 经 网 络 在 训练 阶段 利用 反 向 传播 调整 权重 , 用 到 的 是 某 些 给 定 输入 
的 已 知 正确 输出 (第 7 章 )。 

树 (tree) 任意 两 个 顶点 之 间 只 有 一 条 路 径 的 图 。 树 是 无 环 (acyclic ) 图 (第 4 章 )。 

无 监督 学 习 (unsupervised learning) 不 用 先 验 知识 (foreknowledge ) 即 可 得 出 结论 的 机 央 
学 习 技 术 ， 换 名 话说 ， 这 种 技术 无 须 指 导 而 是 自行 运行 (第 6 章 )。 
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变量 (variable) 在 约束 满足 问题 的 上 下 文中 ， 变 量 是 必须 作为 解 的 一 部 分 并 求 出 的 参数 。 
变量 的 可 能 取 值 范围 即 为 值 域 ( domain )。 解 必须 满足 一 条 或 多 条 约束 条 件 (第 3 章 )。 

顶点 (vertex) 图 的 一 个 节点 (第 4 章 )。 

XOR 一 种 逻辑 位 操作 , 只 要 有 一 个 操作 数 为 true 就 返回 true, 但 两 个 操作 数 都 为 true 或 都 不 
为 true 时 则 返回 false。 此 缩写 表示 异 或 。 在 Python 语言 中 ， 用 运算 符 “^” 表 示 XOR (第 1 章 )。 

Zz (z-score) 数据 点 与 数据 集 均值 之 间 的 距离 ， 以 标准 差 为 计数 单位 (第 6 章 )。 





附录 B 其 他 资料 





接 下 来 该 做 什么 ?本 书 涵盖 的 主题 十 分 广泛 , 本 附录 将 介绍 一 些 优秀 的 资源 , 方便 大 家 作 进 
一 步 的 探索 。 


B.1 Python 

正如 引言 所 述 ， 本 书 假定 读者 至 少 已 具备 Python 语言 的 中 级 知识 。 下 面 列 出 的 是 我 个 人 用 
过 的 两 本 Python 书 , 并 建议 读者 将 Python 知识 升级 。 这 两 本 书 的 主题 对 Python 初学 者 并 不 适合 ， 
但 真 的 可 以 将 Python 的 中 级 用 户 变 成 高 级 用 户 。( 初学 者 请 阅读 Naomi Ceder 的 《Python 快速 入 
门 (第 3 版 )》(The Quick Python Book, Third Edition ) (Manning, 2018 )。) 


E Luciano Ramalho 的 《流畅 的 Python 》( Fluent Python: Clear, Concise, and Effective 
Programming ) (O’Reilly, 2015 )。 


。 唯一 一 本 没有 横 跨 初学 者 和 中 高 级 用 户 的 流行 的 Python 语言 书 ， 该 书 明 显 面向 的 是 
中 高 级 程序 员 。 
。 涵盖 了 大 量 的 Python 高 级 主题 。 
。 讲授 最 住 实践 ， 教 授 编 写 Python 风格 的 (Pythonic ) 代码 。 
。 每 个 主题 都 包含 了 大 量 代码 示例 ， 并 解释 了 Python 标准 库 的 内 部 工作 机 制 。 
e 有 些 部 分 可 能 有 点 儿 宛 长 ， 但 不 妨 轻 松 跳 过 。 
E David Beazley 和 Brian K. Jones 的 《Python Cookbook (第 3 版 )》 ( O’Reilly, 2013 )。 
。 通过 示例 讲授 常见 的 日 常 编程 任务 。 
。 有 一 些 远 超 初 学 者 能 力 的 任务 。 
。 充分 利用 了 Python 标准 库 。 
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。 由 于 是 几 年 前 出 版 的 书 ， 稍 有 点 儿 过 时 《未 包含 最 新 的 标准 库 工 具 ), 希望 第 4 版 能 
尽快 出 版 。 


B.2 算法 和 数据 结构 


引用 一 下 本 书 的 引言 部 分 :“ 这 不 是 一 本 数据 结构 和 算法 的 教材 "。 本 书 很 少 用 到 大 O 表示 
TR, 也 没有 数学 定理 的 证 明 。 本 书 更 像 是 重要 编程 技术 的 实践 教程 ,因此 同时 再 拥有 一 本 真正 的 
教材 是 很 有 意义 的 。 教 材 不 但 会 提供 为 什么 某 些 技术 会 生效 的 更 正式 的 解释 ,而且 还 能 作为 有 用 
的 参考 书 。 虽 然 在 线 资源 也 很 不 错 , 但 有 时 候 拥 有 由 学 术 界 和 出 版 社 精心 审 校 过 的 资料 是 一 件 好 
事情 。 
E Thomas Cormen Charles Leiserson Ronald Rivest 和 Clifford Stein 的 《算法 导论 (第 3 
fi )) (Introduction to Algorithms, Third Edition ) (MIT Press，2009 )。 
。 这 是 计算 机 科学 领域 引用 次 数 最 多 的 教材 之 一 , 它 太 权威 了 ,以 至 于 常用 作者 的 首 字 
CLRS 来 指 代 。 
。 内 容 全 面 且 严谨 。 
© 教学 风格 有 时 会 被 认为 不 如 其 他 教材 平易 近 人 ， 但 仍 是 一 本 优秀 的 参考 书 。 
。 对 于 大 部 分 算法 都 给 出 了 伪 代 码 。 
。 第 4 版 正在 编写 中 , 因为 这 本 书 价格 很 贵 , 所 以 关注 一 下 第 4 版 的 出 版 时 间或 许 会 更 
加 划算 。 


E Robert Sedgewick 和 Kevin Wayne 的 《算法 (第 4 版)》 (Algorithms, Fourth Edition ) 
( Addison-Wesley Professional, 2011 ). 


。 全 面 而 又 平易 近 人 地 介绍 了 算法 和 数据 结构 。 
。 编排 合理 ， 所 有 算法 都 带 有 Java 完整 示例 。 
。 在 大 学 的 算法 课 中 比较 流行 。 
E Steven Skiena 的 《算法 设计 指南 (第 2 版 )》 ( The Algorithm Design Manual, Second Edition ) 
( Springer, 2011 J3 
。 编著 方式 不 同 于 本 学 科 的 其 他 教材 。 
。 给 出 的 代码 较 少 ， 但 对 每 个 算法 的 合理 用 法 展开 了 更 多 讨论 。 
。 为 大 量 算法 给 出 了 角色 扮演 指南 。 
E Aditya Bhargava 的 《算法 图 解 》( Grokking Algorithms ) (Manning, 2016 ). 
。 以 图 形 化 的 方式 讲授 基本 算法 ， 辅 以 可 爱 的 漫画 。 
。 不 是 参考 教材 ， 而 是 首次 学 习 一 些 基 础 主题 的 指南 。 
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B.3 人工 智能 


人 工 智能 正在 改变 世界 。 本 书 不 仅 引入 了 一 些 传统 的 人 工 智 能 搜索 技术 ， 如 A* 算 法 和 极 小 
化 极 大 算法 ， 还 介绍 了 激动 人 心 的 人 工 智能 分 文学 科 一 一 机 器 学 习 ， 如 丰 均 值 聚 类 和 神经 网 络 。 
多 了 解 一 些 人 工 智 能 不 仅 很 有 意思 ， 还 能 让 你 为 下 一 波 计算 技术 浪潮 做 好 准备 。 

国 Stuart Russell 和 Peter Norvig 的 《人 工 智能 : 一 种 现代 的 方法 (第 3 版 )》( 4rtificial Intelligence: 

A Modern Approach, Third Edition ) (Pearson, 2010 ). 
。 关于 AI 的 权威 教材 ， 常 用 于 大 学 课程 。 
。 涉及 面 广 。 
。 可 在 线 获取 优秀 的 源 代码 库 ( 书 中 伪 代 码 的 实现 版 本 )。 
E Stephen Lucci 和 Danny Kopec 的 《人 工 智能 (第 2 版 )》( Artificial Intelligence in the 21st 
Century, Second Edition ) ( Mercury Learning and Information, 2015 )。 
e 若 要 寻求 比 Russell 和 Norvig 的 书 更 接地 气 和 更 多 彩 的 指南 ， 这 便 是 一 本 平易 近 人 
的 教材 。 
。 包含 了 一 些 从 业 人 员 有 趣 的 小 插曲 ， 以 及 很 多 真实 的 应 用 。 
E Andrew Ng 的 机 需 学 习 课 程 ( 斯坦 福 大 学 )。 
。 免费 的 在 线 课程 ， 涵 盖 了 许多 基础 的 机 器 学 习 算法 。 
。 由 址 界 知名 专家 讲授 。 
。 和 常 作为 该 领域 优秀 的 人 门 资料 而 被 从 业 人 员 提 及 。 


















































BA 函数 式 编程 


Python 可 以 实现 函数 式 编程 ， 但 它 真 不 是 为 此 而 设计 的 。 若 对 Python 进行 一 下 深入 研究 ， 
确实 可 以 用 它 实 现 函数 式 编程 , 但 若 采 用 纯粹 的 函数 式 语言 编程 , 然后 将 从 中 学 到 的 一 些 理念 带 
回 到 Python， 那 也 会 是 大 有 神 益 的 。 

E Harold Abelson, Gerald Jay Sussman 和 Julie Sussman 的 《计算 机 程序 的 构造 和 解释 (第 2 


版 )》( Structure and Interpretation of Computer Programs, Second Edition ) ( MIT Press, 
1996 )。 


。 函数 式 编程 的 经 典 介绍 ， 常 用 于 大 学 计算 机 科学 课 的 入 门 教材 。 
。 用 Scheme 语言 讲授 ， 这 是 一 种 易于 掌握 的 纯 函 数 式 语言 。 
。 免费 提供 在 线 版 本 。 







































































204 附录 B 其 他 资料 





E Aslam Khan 的 Grokking Functional Programming (Manning, 2018 ). 
。 对 函数 式 编 程 做 了 图 形 化 、 易 于 理解 的 介绍 。 

E David Mertz 的 Functional Programming in Python (O’Reilly, 2015 )。 
。 对 Python 标准 库 中 的 一 些 函数 式 编程 工具 做 了 简介 。 
。 人 免费 。 
。 只 有 37 页 





























不 很 全 面 ， 仅 供 入 门 。 


BS 实用 的 机 器 学 习 开源 项 目 


有 几 个 实用 的 第 三 方 Python 库 针 对 高 性 能 机 器 学 习 进 行 了 优化 ， 其 中 有 几 个 项 目 在 第 7 章 




















的 机 器 学 习 或 大 数据 应 用 程序 来 说 ， 应 该 运用 这 些 库 〈 或 其 等 价 库 )。 

NumPy : 

。 事实 上 的 标准 Python 数学 库 ; 

。 为 了 实现 高 性 能 ， 主 要 以 C 语言 实现 ; 

。 是 很 多 Python 机 器 学 习 库 〈 包 括 TensorFlow 和 scikit-learn ) 的 底层 基础 。 
E TensorFlow: 最 流行 的 神经 网 络 Python 库 之 一 。 
E pandas: 将 数据 集 导 入 Python 并 对 其 进行 操作 的 流行 库 。 
E scikit-learn: 本 书 讲解 的 几 种 机 器 学 习 算法 的 经 充分 测试 和 全 功能 的 版 本 ( 远 不 止 这 些 )。 

















附录 C ”类 型 提示 简介 











通过 PEP 484 和 Python 3.5, Python 将 类 型 提示 (type hint ) 或 类 型 注解 (type annotation ) 
引入 为 语言 的 官方 构成 。 从 此 ， 类 型 提示 在 很 多 Python 代码 库 中 日 益 普 及 ， 并 且 Python 语 
言 已 为 其 加 入 了 更 有 力 的 支撑 。 本 书 的 每 段 源 代码 清单 都 用 到 了 类 型 提示 。 在 这 个 简短 的 附 
录 中 ， 我 们 将 会 介绍 类 型 提示 ， 解 释 它 为 什么 有 用 以 及 它 存 在 的 一 些 问 题 ， 并 提供 更 深入 的 











警告 本 附录 并 不 求全 ， 只 是 简要 的 入 门 而 已 。 要 获得 详细 信息 请 参阅 Python 官方 文档 。 


C1 什么 是 类 型 提示 


类 型 提示 是 Python 中 的 一 种 注释 方式 ， 注 释 了 变量 、 函 数 参 数 和 函数 返回 值 的 预期 类 型 。 
换 名 话说 ,用 这 种 注释 方式 ,程序 员 可 以 标明 Python 程序 的 某 个 部 分 中 的 预期 类 型 。 大 多 数 Python 
程序 都 不 带 类 型 提示 。 事 实 上 ， 在 阅读 本 书 之 前 ， 即 便 是 中 级 Python 程序 员 也 很 有 可 能 从 未 见 
过 带 有 类 型 提示 的 Python 程序 。 

因为 Python 不 需要 程序 员 指 定 变量 的 类 型 ， 所 以 要 为 不 带 类 型 提示 的 变量 找 出 类 型 的 唯一 
方法 就 是 仔细 查看 ( 逐 字 阅读 之 前 的 源 代码 或 运行 一 下 打印 出 类 型 ) 或 注释 文档 。 这 是 有 问题 的 ， 
为 这 让 Python 代码 更 难 读 懂 ( 尽管 有 些 人 会 表示 反对 ， 本 附录 后 续 将 会 讨论 )。 男 一 个 问题 是 
Python 十 分 灵活 ， 因 此 允许 程序 员 用 同一 个 变量 指向 多 个 不 同类 型 的 对 象 ， 这 就 可 能 导致 出 错 。 
类 型 提示 有 助 于 防止 这 种 风格 的 编程 并 减少 这 些 错误 。 

现在 Python 具备 了 类 型 提示 能 力 ， 我 们 将 其 称 为 渐 类 型 化 (gradually typed) 的 语言 ， 这 意 
味 着 类 型 提示 可 以 在 必要 时 使 用 , 但 不 是 必须 使 用 的 。 尽 管 大 家 可 能 会 觉得 类 型 提示 从 根本 上 改 
变 了 语言 外 观 而 抵触 它 , 但 在 本 附录 的 简短 介绍 中 , 我 仍然 希望 能 说 服 读者 提供 类 型 提示 是 一 件 
好 事情 ， 应 该 在 代码 中 善 加 利用 。 
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C2 ”类 型 提示 的 格式 


类 型 提示 应 该 添加 到 声明 变量 或 函数 的 代码 行 中 。 变 量 或 函数 参数 的 类 型 提示 用 冒号 “:” 
开始 ， 函 数 返 回 值 的 类 型 提示 用 箭头 “->” 开 始 。 例 如 ， 考 虑 以 下 Python 代码 行 : 

def repeat (item, times): 

如 果 不 阅读 函数 的 定义 ， 你 能 说 出 这 个 函数 要 完成 什么 功能 吗 ? 要 把 某 个 字符 串 打 印 指定 
次 ? 还 是 别 的 什么 功能 ”当然 ,通过 阅读 函数 定义 可 以 弄 清楚 它 的 功能 ， 但 会 耗费 更 多 的 时 间 。 
遗憾 的 是 ， 该 函数 的 作者 没有 提供 任何 注释 文档 。 下 面 用 类 型 提示 再 来 试 一 遍 : 

def repeat (item: Any, times: int) -> List[Any]: 

这 样 就 清楚 多 了 。 只 看 类 型 提示 就 能 明白 ， 该 函数 以 Any 类 型 的 item 为 参数 ， 并 会 
返回 一 个 填 人 了 times item 的 List。 当 然 ， 注 释文 档 仍然 有 助 于 让 该 函数 更 易于 理 
和 但 至少 使 用 该 库 的 用 户 现在 知道 了 该 提供 什么 类 型 的 值 给 它 ， 以 及 它 应 该 返回 什么 类 
型 的 值 。 

假定 该 函数 要 用 的 库 只 支持 浮 点 数 , 并 且 该 函数 将 用 于 设置 供 其 他 函数 使 用 的 列表 。 要 修改 
类 型 提示 十 分 简单 ， 只 要 标明 这 种 浮 点 数 约束 即 可 : 

def repeat(item: float, times: int) -> List[float]: 

现在 很 清楚 了 ，itenm 必须 是 float 类 型 , 返回 的 列表 将 填 人 float 类 型 的 值 。 是 的 ,“ 必 
须 ”这 个 词 着 实 强硬 。 直 到 Python 3.7 Aik, 类 型 提示 还 不 会 影响 Python 程序 的 运行 。 它 还 真 的 
只 是 提示 而 非 必须 。 在 运行 的 时 候 , Python 程序 可 以 完全 忽略 其 类 型 提示 , 打破 其 预 设 的 所 有 约 
Ro 不 过 在 开发 阶段 , 类 型 检查 工具 可 以 对 程序 中 的 类 型 提示 进行 测评 ,并 告诉 程序 员 是 否 存在 
函数 的 违规 调用 。 在 程序 上 线 投产 以 前 ， 调 用 repeat ("hello", 30) 就 能 被 发 现 ( 因为 
"hello" 不 是 float 类 型 )。 

下 面 再 来 看 一 个 例子 。 这 次 我 们 将 检查 变量 声明 中 的 类 型 提示 : 

myStrs: List[str] = repeat(4.2, 2) 

上 述 类 型 提示 没有 意义 。 它 标注 了 myStrs 应 该 是 一 个 字符 串 列表 。 但 我 们 从 之 前 的 类 型 提 
示 可 以 得 知 ，repeat () 返回 的 是 一 个 浮 点 数列 表 。 因 为 直至 3.7 版 ，Python 在 运行 期 间 尚 不 会 
验证 类 型 提示 的 正确 性 , 这 种 错误 的 类 型 提示 对 程序 的 运行 不 会 有 任何 影响 。 当 然 无 论 是 程序 员 
的 差错 还 是 对 类 型 的 误解 ， 在 它 酿 成 大 祸 之 前 ， 类 型 检查 程序 都 可 以 将 其 捕获 。 






























































































































































































































































C3 为 什么 类 型 提示 很 有 用 


既然 知道 了 类 型 提示 是 什么 ， 大 家 可 能 就 想 知 道 造成 这 么 多 麻烦 为 什么 值得 。 毕 竞 ， 大 家 
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也 都 知道 了 Python 在 运行 时 会 忽略 类 型 提示 。 如 果 Python 解释 器 都 不 在 意 ， 为 什么 还 要 耗费 
这 么 多 时 间 在 代码 中 添加 类 型 提示 呢 ? 正如 以 上 所 述 ， 类 型 提示 是 一 件 好 事情 ， 主 要 原因 有 两 
个 : 能 让 代码 自 文档 化 ( self-documenting ); 允许 类 型 检查 工具 在 程序 运行 之 前 对 程序 的 正确 
性 进行 验证 。 

在 大 多 数 具 备 静 态 类 型 的 编程 语言 (如 Java 或 Haskell) 中 ， 必 备 的 类 型 声明 语句 能 够 清晰 
表达 出 函数 (或 方法 ) 应 有 的 参数 及 应 该 返回 的 类 型 。 这 为 程序 员 减 轻 了 一 些 编写 文档 的 负担 。 
例如 ， 以 下 Java 方法 应 有 的 参数 或 返回 类 型 完全 没有 必要 加 以 说 明 : 


/* Eats the world, returning the amount of money generated as refuse. */ 
























































public float eatWorld(World w, Software s) { .. } 
与 需要 编写 文档 的 Python 等 效 方法 比较 一 下 ， 这 里 是 指 不 带 类 型 提示 的 传统 写法 : 


Eat the world 

















Parameters: 

w — the World to eat 

s - the Software to eat the World with 
Returns: 


# The amount of money generated by eating the world as a float def eat_world(w, s): 


通过 提供 代码 自 文档 化 的 能 力 ， 类 型 提示 使 得 Python 代码 文档 的 简洁 程度 能 够 媲美 静态 类 


























Eat the world, returning the amount of money generated as refuse. 





def eat_world(w: World, s: Software) -> float: 
考虑 一 个 极端 情况 。 假 设 我 们 继承 了 一 个 不 带 任何 注释 的 代码 库 。 带 或 不 带 类 型 提示 ,采用 

哪 种 更 容易 理解 这 个 没有 注释 的 代码 库 呢 ?7 有 了 类 型 提示 , 就 不 必 深 入 研究 无 注释 函数 的 实际 代 

码 ， 从 而 能 了 解 传 入 参数 的 类 型 及 函数 应 返回 的 类 型 。 

请 记 住 ， 类 型 提示 本 质 上 是 一 种 说 明 方式 ， 它 标注 出 程序 在 某 个 时 刻 应 有 的 类 型 。 然 而 ， 

Python 对 这 种 期 许 不 会 做 任何 验证 , 而 这 正 是 类 型 检查 工具 的 用 武之 地 。 类 型 检查 工具 可 以 读 取 

带 有 类 型 提示 的 Python 源 代码 文件 ， 并 验证 类 型 提示 在 程序 运行 时 是 否 真 的 有 效 。 

Python 的 类 型 提示 有 多 种 不 同 的 类 型 检查 工具 。 例 如 ，PyCharm 是 一 种 流行 的 Python IDE， 
其 内 置 了 一 个 类 型 检查 工具 。 如 果 在 PyCharm 中 编辑 带 有 类 型 提示 的 程序 ， 它 就 会 自动 标 出 类 
型 错误 。 这 将 有 助 于 在 函数 编写 完成 之 前 就 能 发 现 错误 。 

在 撰写 本 书 时 ， mypy 是 首屈一指 的 Python 类 型 检查 工具 。mypy 项 目的 带头 人 是 Guido van 
Rossum， 他 同时 也 是 Python 本 身 的 创造 者 。 由 此 ， 未 来 Python 中 类 型 提示 将 扮演 突出 的 角色 ， 
对 于 这 一 点 你 还 有 疑问 吗 ? mypy 安装 完毕 后 ， 运 行 它 很 简单 ， 即 mypy example.py, Hip 
example. py 是 待 类 型 检查 的 文件 名 。mypy 会 在 控制 台 上 显示 程序 中 的 所 有 类 型 错误 ,没有 错 
误 就 什么 都 不 显示 。 
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将 来 类 型 提示 可 能 还 会 有 其 他 用 途 。 目 前 类 型 提示 不 会 影响 Python 程序 的 运行 性 能 。 最 后 
再 重申 一 次 ， 在 运行 时 类 型 提示 会 被 忽略 。 但 未 来 的 Python 版 本 可 能 会 利用 类 型 提示 中 的 类 型 
信息 执行 程序 优化 。 那 时 你 或 许 只 需 添加 类 型 提示 ， 就 能 加 速 Python 程序 的 运行 了 。 当 然 ， 这 
纯粹 只 是 猜测 。 据 我 所 知 ，Python 目前 并 没有 基于 类 型 提示 实现 优化 的 计划 。 











C4 ”类 型 提示 的 缺点 是 什么 


用 类 型 提示 有 3 个 缺点 : 

国 “ 带 有 类 型 提示 的 代码 需要 更 长 的 编写 时 间 ; 

m 某 些 情况 下 ， 类 型 提示 无 疑 会 降低 代码 的 可 读 性 ; 
图 类 型 提示 机 制 尚未 完全 成 熟 ， 用 目前 的 Python 实现 某 些 类 型 约束 可 能 会 令 人 困惑 。 

带 有 类 型 提示 的 代码 需要 更 长 的 时 间 进 行 编写 , 原因 有 两 个 : 只 是 多 打 了 几 个 字 ( 在 键盘 上 
多 敲 了 几 个 键 )， 就 得 对 代码 做 更 多 的 解释 ; 多 解释 一 下 代码 总 是 件 好 事情 ， 但 额外 的 解释 会 减 
组 程序 运行 速度 。 不 过 , 通过 在 运行 程序 之 前 用 类 型 检查 工具 发 现 错误 来 弥补 失去 的 时 间 还 是 有 
希望 的 。 为 了 调试 可 被 类 型 检查 工具 捕获 的 错误 而 耗费 的 时 间 , 可 能 会 多 于 使 用 复杂 代码 库 编 码 
时 解释 类 型 的 时 间 。 

有 些 人 觉得 , 带 有 类 型 提示 的 Python 代码 的 可 读 性 变 低 了 。 造 成 这 种 情况 原因 可 能 有 两 
个 : 不 熟悉 和 哆 唆 。 对 于 第 一 个 问题 ( 即 不 熟悉 ), 任何 陌生 语法 的 可 读 性 都 会 不 如 熟悉 的 语 
法 。 类 型 提示 确实 会 改变 Python 程序 的 外 观 , 起初 可 能 会 让 人 感到 陌生 。 这 只 能 通过 多 读 多 
看 并 多 写 带 有 类 型 提示 的 Python 代码 来 缓解 。 对 于 第 二 个 问题 ( 即 嘿 唆 )， 这 一 点 更 为 要 紧 
一 些 。Python 因 语 法 简洁 而 闻名 。 通 常 同样 的 程序 用 Python 编写 明显 要 比 其 他 语言 简短 。 而 
具有 类 型 提示 的 Python 代码 就 没有 那么 短小 了 ， 人 眼看 起 来 就 没 那 么 快 了 , 毕竟 代码 中 多 了 
很 多 东西 。 虽 然 阅 读 时 间 增 加 了 ， 但 换 来 的 是 第 一 遍 阅读 后 对 代码 的 理解 能 更 充分 一 些 。 有 
了 类 型 提示 ， 你 就 能 立即 知晓 所 有 应 有 的 类 型 ， 这 比 必须 查看 代码 来 了 解 类 型 或 必须 阅读 文 
档 更 具 优 势 。 

类 型 提示 仍 在 不 断 变 化 当中 。 自从 首次 于 Python 3.5 引入 以 来 , 类 型 提示 已 有 了 明显 的 进步 ， 
但 其 不 擅长 的 边界 情况 (edge case) 仍然 存在 。 第 2 章 中 就 有 这 方面 的 例子 。Protocol 类 型 通 
常 是 类 型 系统 中 的 重要 组 成 部 分 ， 在 Python 标准 库 的 typing 模块 中 却 尚 未 包含 ， 因 此 第 2 章 
中 必须 包含 第 三 方 的 typing_extensions 模块 。 在 将 来 的 官方 Python 标准 库 中 有 计划 纳入 
Protocol, 但 目前 尚未 包含 的 事实 证 明 Python 类 型 提示 仍 处 于 早期 阶段 。 基于 标准 库 的 可 用 现 
状 ， 在 本 书 的 编写 过 程 中 ， 我 遇 到 过 几 次 令 人 困惑 的 边界 情况 。 因 为 Python 不 是 必须 要 有 类 型 
提示 , 所 以 当前 阶段 在 不 适合 使 用 类 型 提示 的 场合 只 管 不 用 即 可 。 使 用 一 定 程度 的 类 型 提示 仍然 
可 以 获得 一 些 好 处 。 
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C5 更 多 内 容 


虽然 本 书 的 每 一 章 都 有 类 型 提示 的 示例 , 但 这 不 是 类 型 提示 的 使 用 教程 。 使 用 类 
佳 起 点 是 Python 的 typing 模块 的 官方 文档 。 文 档 中 不 仅 解释 了 可 用 的 全 部 内 置 类 型 ， 还 介绍 
了 在 几 个 高 级 场景 中 的 用 法 ， 这 已 超出 本 书 的 范畴 。 

另外 , 你 还 应 该 查阅 一 下 男 一 个 类 型 提示 资源 , 即 mypy 项 目 。mypy 是 业界 领先 的 Python 
类 型 检查 工具 。 换 名 话说 ， 它 是 一 个 用 来 对 类 型 提示 的 有 效 性 加 以 实际 验证 的 软件 。 除 安装 并 
使 用 它 之 外 ， 你 还 应 该 查阅 一 下 mypy 的 文档 。 文 档 的 内 容 很 丰富 ， 解 释 了 某 些 在 标准 库 文档 
中 没有 记载 的 场景 中 如 何 使 用 类 型 提示 。 例 如 ， 有 一 个 特别 令 人 困惑 的 领域 就 是 泛 型 。mypy 
的 泛 型 文档 就 是 一 个 很 好 的 起 点 。 男 一 个 不 错 的 资源 是 mypy 发 布 的 “类 型 提示 速 查 表 ”( type 
hints cheat sheet )。 































































































算法 精粹 


经 典 计算 机 科学 


看 似 新 颖 或 独特 的 计算 机 科学 问题 ， 往 往 根植 于 经 典 算法 、 编 
码 技巧 和 工程 原理 。 经 典 方法 仍然 是 解决 这 些 问 题 的 最 佳 途径 ! 理解 
用 Python 实现 的 这 些 技巧 ， 可 以 扩展 你 在 Web 开发 、 数 据 处 理 、 
机 器 学 习 等 方面 获得 成 功 的 潜力 。 


本 书 详细 介绍 一 些 经 过 时 间 验 证 的 方案 、 练 习 和 算法 ， 以 提升 你 
解决 计算 机 科学 问题 的 技能 。 从 二 分 搜索 算法 这 种 简单 的 任务 ， 到 用 
k 均值 聚 类 算法 对 数据 进行 聚 类 ， 很 多 编码 挑战 都 将 迎刃而解 。 破 解 
将 计算 机 科学 与 应 用 、 数 据 、 性 能 等 真实 世界 相关 联 的 问题 ， 会 让 你 
特别 享受 那 种 满足 感 ， 甚 至 可 以 让 你 在 下 一 次 工作 面试 中 应 对 自如 ! 


本 书 主 要 内 容 


e 搜索 算法 。 
© 图 的 常见 技术 。 

© 神经 网 络 。 

e 遗传 算法 。 

© 对 抗 性 搜索 。 

© 始终 使 用 类 型 提示 。 


本 书 适 合 中 级 Python 程序 员 阅 读 。 


AE - 科 帕 克 ( David Kopec ) 是 尚 普兰 学 院 计 算 机 科学 与 创新 专 
业 的 助理 教授 。 他 也 是 Dart for Absolute Beginners 和 Classic 
Computer Science Problems in Swift 这 两 本 书 的 作者 。 
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